最近,超算領域學術界和產業界人士圍繞“中國超算服務創新”展開了一場熱烈的討論。
起因是,北京并行科技股份有限公司(以下簡稱并行科技)總經理陳健從超算建設投入產出比的角度提出,雖然中國超算近年來取得了矚目的成就,但超算服務的模式還很落后,特別是一些自建院系、單位級和用戶組級超算集群(統稱為中小微超算),投入產出比遠不及大型超算,且年平均利用率低,這種“小農經濟式”超算服務形態,虛擬主機,急需改進、創新。
如何為科研提供更好的超算服務,是中國超算的一大命題。
陳健提出的解決方案是“超算上云”。作為超算云服務提供商,陳健認為,超算的使用者大都要經歷“國內外大超算平臺排隊上機——自建超算集群——租用超算——超算云服務”的過程,這是一個“從落后的生產力逐漸過渡到更先進的生產力形式”。
以此為發端,超算領域學術界、產業界人士從各個角度給出了他們的理解和思考。
超算“全盤云化”有其局限
之所以以“小農經濟”類比,在陳健看來,自建超算集群就好比自種“兩畝自留地”,這些自建的中小微超算有些浪費,不如大家都把需求集中起來,把無數的“兩畝地”匯集成“萬畝良田”,大家通過超算云服務的形式,從大型超算上按需購買計算資源,不但可減少浪費,還能提高應用效率。
相應的,陳健把并行科技比作“制造大型農機具的”——只有大型超算(萬畝良田)多了,美國站群服務器,“現代農機具廠商”才好開張。
但是,超算全部上云(指服務模式,并非云計算),現實嗎?
虛擬化和云計算專家麻清剛提出,從技術上來講,限制超算“上云”的條件是網絡帶寬。“如果可以以極低成本拉一條400G的網絡專線,超算還真有可能全盤云化——但不一定都是公有云,私有云、企業云、行業云等形態都可能存在。”
但是,帶寬問題目前很難逾越。“帶寬費用是阻礙我們去內蒙古建超算的最主要原因,節約的電費都給運營商買帶寬去了。”北京大學高性能計算平臺主任工程師、計算中心系統管理室主任樊春這樣說。
內蒙古電價為每千瓦時0.26元。近年來,西部地區利用“超低電費”的條件大力投建IT基礎設施,這對于一般的云計算中心來說是個利好,但對于超算而言,并不一定可行。
樊春說,對于大部分超算用戶來說,速度和價格是排在前兩位的。超算中心對外提供計算服務,只有同時滿足這兩點,用戶才愿意買單。
且不說“拉一條400G的網絡專線”是個很大的前提,僅超算服務“全盤云化”這一點,中科院計算所研究員、國家超級計算濟南中心主任張云泉就不太認同。
他從超算需求的角度出發,認為目前超算云服務只能支持一些中低端計算需求,那些更快、更大規模的需求,超算云服務的形式還提供不了,“就像當年網格計算聲稱可全面取代超算一樣,超算服務全盤云化幾乎不可能”。
超算成本下降還需規模效益
樊春還提出一個問題:“超算云技術管理上無法降低成本,從而無法降低對最終用戶的價格,這是超算云發展的最大障礙。”
這一觀點與陳健提出的觀點相悖。陳健此前在接受《中國科學報》采訪時稱,超算云服務商的角色,就是通過研發軟件和方案,以技術輸出提高超算集群的易用性和有效利用率,從而降低超算的使用成本——把超算的每核時成本降低至一毛錢。
二者的矛盾點在哪?
一個答案是:用戶規模。只有用戶規模上去了,兩人的觀點才能找到平衡點。
一方面,陳健認為樊春所在的北京大學校級高性能計算平臺,已經有了足夠大的規模應用,規模效益已現,所以北大能夠給予用戶更低的價格;
另一方面,陳健也深知城域網光纖非常貴——他們就投建了從廣州超算到北京的城域網光纖專線,之所以這么做,是因為并行科技也實現了規模效益,通過這條光纖專線,并行科技有每年數千萬元的超算云服務經營額。
“這(超大帶寬網絡光纖)是一個極具規模效益的基礎設施投入。”陳健感嘆。
那么,現在中國超算應用是否到了產生規模效益的節點?