都知道數字化轉型的重要性,但怎么轉?依靠哪些數字科技?就不簡單了。數字科技的特點是概念頻出,眼花繚亂的同時,也讓人頭暈目眩,追趕不上發展的步伐。
這里要談論的是容器持久化存儲,相信對很多人來說,這是一個新概念。
如果從定義或者概念來了解它,涉及技術很多,用戶的基礎不同、認知不同,要快速掌握容器持久化存儲的價值,其實并不容易,叫存儲,但是意義超越存儲。
也許把定義放在一邊,了解它能夠解決哪些問題和痛點,不失為一個捷徑。
解決的問題關鍵嗎?
12月10日, 焱融科技以“Time To Change”為主題在京發布了分布式文件存儲產品YRCloudFile,并與Mellanox、科大訊飛、Rancher等200+客戶和合作伙伴,共同研討IT變革浪潮下的應對之策。
需要注意,所謂“Time To Change”,“適時改變”不僅指存儲,存儲之上,更重要的是TensorFlow、Spark、MySQL、Jenkins、ElasticSearch和WordPress為代表的應用,也就是云原生的應用也在發生改變。
如今,行業巨頭以及互聯網企業就是依靠這些呼風喚雨,改變世界。
私有云也好,公有云也好,傳統企業應用的云原生化改造迫在眉睫,否則會被越拉越遠。不僅是互聯網企業的沖擊,更大的危機來自轉型快的同行,快魚吃慢魚,贏者通吃,directadmin漢化,這才是硬道理!
首先說容器化。K8S已經成為云原生的事實標準,被普遍接受和使用,也是云原生應用首要使用的編排工具。同樣,容器化也帶來基礎架構的一系列改變。其中,容器持久化存儲首當其沖。
都知道容器的特點是召之即來,揮之即去。這是因為無狀態應用的緣故。對有狀態的應用,如MySQL、PostgreSQL、MangoDB、RabbitMQ、ElasticSearch來說,也采用容器來運行。當容器“死了”,需要快速重建,這個時候問題來了,數據也能夠快速重建嗎?
這時就需要持久化存儲了。
CSI、FlexVolume都是容器持久化存儲的規范接口,但是僅支持接口的存儲就是容器持久化存儲嗎?答案是否定的。目前市場上支持CSI存儲很多,有傳統的、分布式的、開源的、商用的,但在實際應用中,產品表現差別很大。是選用一款能在容器場景下基本可以使用的存儲,還是一款完全符合容器化場景容器持久化存儲,是每個IT決策者面臨的問題。
海量小文件處理和性能
對于容器持久化存儲來說,容器存儲熱點分析、可視化展現、K8S資源可視化管理、QoS性能管控、存儲卷彈性伸縮等,這些都是衡量容器持久化存儲功能的指標。
另一方面,海量小文件處理、海量小文件訪問熱點,有狀態Pod跨節點的秒級重建,以及跨數據中心的雙活解決方案等,也是容器持久化存儲重要的性能及可靠性指標。
海量小文件是很多應用場景經常面臨的問題,以機器學習AI為例,數據訓練中需要依賴大量的小文件,規模會達到幾十億;此外,高性能計算也將涉及到海量文件的處理。
海量小文件會導致元數據管理瓶頸,最終拖累數據存儲的性能。為了應對海量小文件處理,YRCloudFile采用元數據集群,借助橫向擴展的方式來消除元數據管理的瓶頸。
測試結果顯示,從10億~70億小文件,YRCloudFile始終能夠保持元數據處理能力的持續穩定。
熱點目錄是另一個造成性能瓶頸的來源,也就是多臺服務器集中訪問某個單一目錄下的文件,形成熱點目錄,如果系統對于熱點目錄并行處理能力不足,就會導致系統崩潰,或者性能低下。
針對熱點目錄,YRCloudFile提供虛擬目錄的技術,對于文件名(filename)進行Hash運算后放置在虛擬目錄中,虛擬目錄數據分布在不同的元數據節點,對上層應用透明,從而增強熱點目錄的并行處理能力。
與此同時,借助4k小文件的內聯,YRCloudFile進一步提升了小文件訪問處理的性能。
海量小文件處理不限于容器持久化存儲,對AI等非結構化數據規模巨大的新型應用而言至關重要,這也是YRCloudFile瞄準的主要場景。
塊數據的話題