2020年6月,Hyperion Research發布了最新HPC市場研究報告表明,HPC存儲已成為HPC市場中增長最快的部分。預計2019至2024年,HPC存儲復合年均增長率為12.1%,高于HPC服務器的8.7%,預計到2024年收入約為99億美元。
報告還對過去5年,工業、政府以及學術研究機構采用的HPC文件系統進行了深入調查分析。結論是,NFS仍然是目前最廣泛采用的文件系統,但使用率已從2015年的54%下降到2019年的46%。Lustre、HDFS、GPFS/Sectrum Scale則分別實現增長,其中Lustre由21%增長至32.5%、HDFS由15%增長至24.7%、GPFS/Sectrum Scale由23%增長至26.8%。
在調查的194個超級計算機站點中,共使用了349個文件系統,平均每個站點使用1.8個文件系統。 超過50%的政府網站和30%的學術網站使用Lustre和GPFS/Sectrum Scale,工業選擇NFS、HDFS和RedHat的居多。除此之外,GFS、CEPH和Pan FS占比雖然不高,但在政府、學術界和工業都不同程度的應用。
HPC存儲“大家談”
無論是開源還是商用存儲,也不管選用哪種分布式文件系統,HPC存儲技術發展終究是要適應市場的需求,特別是適應當前企業不斷深化的數字化轉型和智能化升級需求。隨著云計算、大數據以及AI融入到千行百業,無論是傳統企業、政府還是學術研究機構,數據的快速增長將避無可避,由此帶來的龐大數據處理與分析需求,勢必推動HPC存儲廠商的技術創新和變革。
面對快速增長的數據存儲、管理、分析、低延時、高帶寬的應用需求。HPC存儲廠商在做什么?總結來說,主流廠商都在瞄準大數據分析和AI分析場景,通過收購或技術創新不斷提升HPC存儲性能。
作為存儲行業的老牌廠商,戴爾易安信有著豐富的HPC解決方案組合,既有基于Lustre、BeeGFS包裝的并行存儲解決方案主打傳統HPC場景,又有基于PowerScale(前Isilon)構建的數據湖解決方案主打HPDA場景,同時推出了系列全閃存儲機型和PowerEdge服務器、400GbE開放式網絡交換機等形成AI就緒解決方案,通過多種方案組合應對傳統HPC向HPDA、HPC-based AI演進趨勢。
IBM正在將軟件定義的IBM Spectrum Scale存儲產品與基于 IBM POWER9處理器的I/O密集型服務器結合起來。通過將整個組織的存儲需求整合到 IBM ESS 5000 和基于 NVMe的ESS 3000上,支持需求苛刻的 HPC、分析和/或高容量存儲需求。IBM ESS 5000專為數據湖而設計,單個節點的性能可達到 55 GB/秒,可擴展至堯字節級容量。
戴爾易安信和IBM都將存儲未來的發展壓向“AI、分析和HPC”應用,足見各大廠商對HPDA、HPC-based AI應用場景方向的看好和認可。
作為一家專注于高性能計算存儲的供應商,DDN擁有一系列快速訪問和可擴展陣列,可單獨使用,也可以與GRIDscaler Spectrum Scale和EXAscaler Lustre系列中的橫向擴展并行文件系統捆綁使用。近年來,DDN通過一系列的收購來強化其存儲系統面向AI、5G等場景的支撐能力。2019年收購軟件定義存儲公司Nexenta,該公司擁有一系列文件,塊和對象存儲軟件產品,以及基于ZFS文件系統。Nexenta已進入了市場,免備案主機,其在物聯網市場也在開拓計劃中。收購Nexenta,云主機租用,不僅能拓展DDN存儲面向5G、AI以及物聯網等場景的能力,還可以在Lustre和Spectrum Scale產品之下獲得更為通用的文件存儲。
對比業界幾種主流的文件系統,Lustre作為超20年歷史的老牌開源并行文件系統,專門面向HPC場景設計,具有很強的擴展性和超高的帶寬能力,HPC場景生態上也支持度很高。但開源文件系統的通病也在它身上充分體現出來,系統復雜性高和調優維護復雜是客戶對Lustre詬病最多的點,同時,Lustre的企業特性較少,小文件性能偏弱也成為其面向HPDA/AI場景演進的障礙。
IBM Spectrum Scale(前GPFS)作為并行文件系統的另一大分支,相比Lustre在企業特性方面和小文件性能上有了較大的增強,但仍然沒能擺脫系統復雜性高和調優維護復雜的帽子,隨著IBM近兩年在整體存儲市場走弱,Spectrum Scale也面臨困境。
PowerScale的OneFS作為通用分布式文件系統的代表,憑借多協議互通能力和系統易用性,在新興的以自動駕駛為代表的HPDA場景斬獲了較多的市場份額,但不支持MPI并行訪問接口和相對較弱的性能,又限制了其在HPDA場景的競爭力。
隨著傳統HPC向HPDA、HPC-based AI方向演進,各行業迎來了數據量爆發和異構算力加入,那么有沒有一種存儲能解決企業的所有需求,應對跨協議訪問、混合負載性能、成本、可靠性等多方面給存儲帶來新的挑戰?