隨著數字經濟進入新發展階段,算力已成為核心資源之一。據有關資料統計,我國各類算力中心總量超過46萬個,總面積逾1000萬平米,且未來將保持一定概率的增長。
然而,盡管算力這個詞在近年來很“火”,但其背后的含義,卻很少有人真正了解。“算力”受到關注,但背后的技術領域依然小眾、認知門檻高,“如果連算力概念都不了解,那么企業、政府在規劃算力中心時難免吃大虧,云主機,甚至出大事。”
基于這個問題,AI科技評論與某超算中心主任進行了訪談,在本文中討論了算力中心建設的要點,并分析該如何正確理解算力,以及厘清該領域經常被誤會的地方。
1、對立統一
算力中心有多種,大致可分為數據中心、超算中心、智算中心等,而它們都可以用云的形式來提供服務。
其中數據中心在互聯網企業中常用到,用于處理數據密集、通訊密集的事務性任務,比如手機app應用的后臺數據數理。超算中心更偏重于科學計算等計算密集型的任務。最后,智算中心則應用于特定的大規模AI任務。
超算和智算之間更容易被混淆,但要區分它們其實也很簡單,“我們可以把超算看成綜合醫院,把智算看成專科醫院。”綜合醫院、專科醫院都有其存在的價值,并在動態意義上可以互相轉化,由此也暗示超算和智算的對立統一關系。
對立
“很多媒體對算力中心存在許多誤解,甚至都算不上是誤解,很多時候連基本概念都沒有搞清楚。”
近期,某人工智能計算中心宣布建成投運,不少媒體報道指出該智算中心的算力規模達到1000P,“AI算力峰值性能相當于5萬臺高性能計算機。”
專家表示,媒體這種說法并不專業,就像說飛機飛的比100座山還高。“一座山的高度可能是100米,可能是8848米。一臺高性能計算機,可能有10個節點,也可能有10000個節點。”
另外,人們可能會認為,該智能計算中心的算力已經超越了曾獲得超算TOP500榜單第一的富岳(537PFLOPS)。
但實際上,超算采用“FLOPS”即每秒浮點運算數為算力單位,而智能計算的算力單位一般會采用“OPS”即每秒操作次數為算力單位,兩者是完全不同的度量單位。
此外,智能計算的性能結果(單位OPS)通常是基于半精度及整型運算測試(AI基準)得到的,超算的性能結果(單位FLOPS)則是基于雙精度、單精度浮點運算測試(Linpack)得到的。
對于超算和智算之間性能的比較,專家持比較嚴苛的觀點,其表示1000POPS性能可能相當于0 PFLOPS,“這里面涉及到能與不能的問題。具體還要看運算精度,而運算精度最終是影響到可執行的任務類型的。就好比,我們不能說十個牙科診所相當于一個綜合醫院。”
計算機的精度類型包括雙精度、單精度、半精度以及整數類型等,隨著精度減小,其表示的數值范圍依次大幅度降低,同時對應硬件能勝任的任務也越來越聚焦到特定領域。
注釋:【100P雙精度性能超算】和【1000P半精度浮點性能智算】執行任務對比
注釋:不同精度可執行任務對比
“在AI推理、AI訓練、模擬這個維度上,芯片的應用上限由其底層構造所決定,即使采用軟件優化也無法再往上提升。”
此外,有些廠商還會模糊智能計算機的推理性能和訓練性能,或者在同為FLOPS單位的情況下,掩蓋運算精度細節。“比如近期被媒體廣泛宣傳的聲稱達到超算TOP500第五的國外超級計算機,其實更接近于智能計算機,它的性能數值其實也是基于低精度運算得到的。”
統一
由于精度上的限制,使得智能計算機受限為專用算力,一般僅支持單個場景,而無法提供平臺性的服務。比如安防領域擁有海量視頻,智算中心可以只做一個任務即視頻處理,并且做10年乃至20年,它都能表現的很好。“但是,讓智算中心去跑需要運行數萬不同類型軟件的任務,那就是勉為其難了。”
因此,智算中心并不適用于公共服務型的算力中心,而更適用于企業。
超級計算機則是一種通用算力,更加擅長高精度計算,可勝任行星模擬、新材料開發、分子藥物設計、基因分析等科學計算任務,以及能源、氣象、工程仿真、生物基因、智慧城市等。