2019年6月25日,由浪潮與OCP開放計算社區聯合主辦的首屆OCPChina Day(開放計算中國日)在北京正式開啟。本屆 OCP China Day聚焦人工智能、邊緣計算、OpenRack、OpenRMC、SONiC、OAM等前沿技術話題,來自Facebook、LinkedIn、Intel、微軟、百度、騰訊、阿里、諾基亞、中國移動、浪潮等資深技術專家分享了最新技術進展。近千名工程師和數據中心從業者參加了此次大會。
OCP是全球最大的開放硬件社區,2011年由Facebook發起成立,其宗旨是以開源開放的方式,重構當前的數據中心硬件,發展面向下一代數據中心的服務器、存儲、網絡、基礎設施等創新硬件。目前,OCP核心會員超過200家。
百度于2019年3月14日,宣布加入OCP開放計算項目(Open ComputeProject),成為該項目的鉑金級會員,致力于加強與項目成員在數據中心、AI硬件標準等方面的技術交流和聯動,推動AI新硬件技術的加速落地,并通過制定統一的硬件標準降低落地成本。在本次OCP China Day上,百度智能云副總經理謝廣軍以《新技術驅動基礎設施變革》為題進行了分享。
百度智能云副總經理 謝廣軍
以下為大會演講實錄:
謝廣軍:大家早上好,剛才聽了很多嘉賓的分享,我們可以看到過去十年中,開源開放,不管是軟件的開源開放還是以OCP為代表的硬件的開源開放,對云計算產生了非常巨大的推動力。剛才英特爾的嘉賓講,我們有很多新的技術、新的設計,也在不斷推動著云計算的變革。今天我作為云計算的從業者,會從云的應用視角跟大家分享一下這些新的技術怎么樣推動基礎的云計算方面的變革,我們有哪些新的趨勢。
云計算,用戶需要的有這么幾方面。我們需要為客戶降低成本,需要有更低的成本,需要有極致的性能,有更為彈性的基礎設施,有計算力驅動應用往前的發展。新的趨勢是云、邊緣和端的協同計算。當前云的計算,我們認為有幾方面新變革推動著新的云計算模式往前發展,首先是我覺得和今天的主題很契合的,就是硬件,我們新的硬件技術推動著云計算產生了什么樣的變革,第二是新的模式,比如Serverless化的模式,第三是智能化,第四是邊緣。
硬件,我們在通用計算、存儲、網絡、異構計算有很多新的模式,比如存儲領域,今天有英特爾的Optane這樣的方式,網絡我們有25G、100G已經廣泛應用,軟硬協同方面我們有DPDK、SPDK,我們有新的協議棧,有新的offload的方式,帶來的是在云軟件的設計上我們做的新的引擎、新的分布式協議、新的線程模型,給用戶帶來的更高的性能、更低的成本,比如新的模式,Cloud Native的數據庫等等,這些最近幾年發生了很深刻的變化。
我們舉幾個例子。我們在AI的時代,所謂的異構計算算力由通用向更專用的方向發展,百度也在自己做昆侖芯片,我們下半年會基于昆侖芯片的計算實例計算云主機,這個云主機的性能或性價比我們需要做到業界最高。我們要求芯片能夠實現完整的虛擬化,一個芯片能分配給多個云主機同時進行使用,使得我們在異構上需要以更低的成本提供更好的性能。
比如在網絡這塊,以前純靠軟件做云的network,今天我們有很多軟硬件協同的方式,比如我們的SmartNIC,把我們的協議棧、分布式塊存儲的storage的前端接入,比如VXLAN的解析,我們把它offload到SmartNIC上,使得我們獲得極致的性能。我們會做Hyper的Offload,使得云主機既有裸金屬的性能又有傳統的可管理性。在存儲領域,比如我們的塊存儲,大家都知道云上用的磁盤分成本地化和分布式的塊存儲,分布式塊存儲有很多好處,比如管理更靈活。今天我們新的網絡的性能,我們有25G、100G,我們有新的存儲介質,我們有RDMA,我們現在推出一款Nearlocal的block storage,既有接近本地的吞吐和延時的能力,同時我們還會有云磁盤的快照、備份、DR等可管理性,這塊也是軟硬件協同的結果。
在存儲領域,比如我們的對象存儲,今天市面上見到的更多的是標準的冷的存儲等東西,今天應用磁帶接入到對象存儲中,我們提供了歸檔的存儲模式,這種歸檔的存儲模式使得單個帶庫的容量會提高很多,單GB的存儲成本會急速下降。當我們推出這樣一個東西的時候,成本是我們以前做到的對象存儲里最冷的那一檔成本的15%,這塊我們有接近一個數量級的成本的降低,在很多場景有非常大的性價比的提升。
在存儲領域,我們再舉個例子。尤其在機器學習和HPC領域我們有大量的非結構化的小文件需要讀取寫入。傳統是用全閃的分布式文件系統承載它的存儲,今天我們把存儲系統的設計用新硬件和軟件重新做一些設計,比如我們把存儲系統的源數據的cache用更高性能的比如英特爾的Optane承載,我們推出了一款適合于機器學習的storage的產品,它能夠在讀寫混合的場景和純讀的場景IOPS差別不超過10%。我們曾經測試過文件數從1億漲到80億,對文件訪問性能的降低不超過5%,相對于全閃方案我們成本能降低22%。