今朝,高機能計較市場正處于技能轉型期 —— 向“Co-design(協同設計)”的偏向過渡。就像許多文章中所探討的那樣,這種轉型的呈現是為了沖破當前基本設施和應用的機能瓶頸,既由存在已久的多核CPU以及CPU為焦點的系統架構所帶來的機能瓶頸。
那么,為什么多核CPU反倒成了機能瓶頸的原因?為了更好的領略這一點,我們往返首一下此前的單核CPU時代。在當時,CPU的焦點頻率是最重要的參數——因此其時人們晉升系統機能的步伐就是通過提高CPU主頻,并將網絡成果淘汰(包羅網絡適配器和互換機)。每一代新產物的宣布城市帶來更快的CPU以及更低延遲的網絡適配器和互換機,這是其時計較機機能晉升的主要模式。然而,這個模式不行能一直一連下去——由于功耗問題的限制,CPU主頻不行能無限提高。因此,我們并沒有一味地再去晉升頻率,而是回收了并行多核CPU,從而讓處理懲罰器可以或許在同一時間執行多個歷程。以后,我們晉升系統機能的要領,不再是簡樸的晉升單核運行速度,而是通過多核來同時處理懲罰更多的指令。
這種增加CPU焦點數量的新模式大幅增加了互連絡統的承擔,別的這也讓網絡互連釀成了系統機能的主要因素。精確的說,抉擇系統機能的要害,就是所有CPU歷程的同步速度,以及CPU歷程之間數據包聚合和分發的速率。
不外,與大情況的通信模式對比,互連延遲的改造所能帶來的影響也是微乎其微的。今朝,InfiniBand互換機的普遍延遲為90納秒,InfiniBand適配器的延遲則是100納秒。CPU處理懲罰的通信框架,好比MPI集團通信,它的延遲在幾十微秒范疇內(1微秒=1000納秒)。這種差異數量級的通信延遲差距,使得互連絡統方面的延遲優勢微乎其微——即便再降10、20、40或50納秒,與CPU歷程間的通信延遲對比可以忽略。換句話說,對HPC的將來而言,某些公司所提議的將網絡適配器與CPU歸并,以淘汰幾納秒延遲的想法過分異想天開。
也許有人會好奇這和卸載(Offloading)與加載(Onloading)的PK有何關系,其實干系很是大。已往,卸載與加載之間的爭論主要會合在CPU效率方面。研發出一項基于卸載架構的互連技能的難度和巨大度都不容小覷,但其回報也不菲——它可以或許讓CPU從網絡打點中脫身,進而可以或許輕松晉升40-50% 的CPU與系統操作率。而基于加載(onloading)架構的互連技能開拓則相對簡樸的多,它只不外是一個簡樸的通道,所有的網絡操縱仍然必需由CPU來打點和執行;從應用的角度來看,一半的CPU資源都被揮霍了。
另外,基于任務卸載(Offloading)的架構可以或許讓像RDMA(長途內存直接會見)這樣的技能變得可用,而這是加載(Onloading)架構無法做到的。我們已經見過無數應用機能展示的示例,這些示例無一不證明白基于任務卸載辦理方案比擬Onloading產物的顯著優勢(好比DDR InfiniBand vs. Pathscale InfiniPath 和 QDR InfiniBand vs.QLogic/Intel TrueScale)。
如今,基于任務卸載的架構不僅擁有絕佳的機能和性價比優勢,更是辦理系統機能瓶頸的要害——除非回收智能的互連和卸載技能,,不然系統將很難再繼承高效的擴展下去。
跟著歷程數量的一連增長,IT人士可以通過并行的編程手段來辦理科研與制造規模中的巨大問題,也因此,歷程間通訊的重要性日益凸顯。和“乒乓操縱”(Ping-Pong)的網絡延遲對比,更要害的是巨大通訊的延遲——集群通信(collective)或數據聚合操縱。在CPU上執行這類操縱城市導致其機能受到極大極限,從而無法進一步加速速度。實際上,獨一的有效辦理方案就是當數據在集群內傳輸進程中就執行此類操縱,暨數據傳輸中通過互連設備自身成果(互換機、適配器)舉辦巨大通信的操縱。該方案基于全球Co-Design(協同設計)架構開拓,它將輔佐我們加快邁向百億億次計較。
這一技能趨勢不只將影響高機能計較,還將改變數據闡明、呆板進修以及其他數據麋集型應用和基于數據搜索的應用規模的成長。曾經在21世紀前期大放異彩的CPU多核并行辦理方案在本日已經成了晉升系統機能的瓶頸,新型智能卸載互連技能才是新的救星。智能互連辦理方案將成為新的協處理懲罰器,因此它們也將是高可擴展計較的要害因素。
從頭回到應用機能和系統投資收益率(ROI)的接頭。關于EDR InfiniBand和英特爾Omni-Path之間的機能比擬與此前兩種差異互連技能的比擬應該根基雷同。固然今朝關于Omni-Path的可用系統很少,但我們已經可以看到在差異高機能應用實例中所表示出的系統機能差別,譬喻WIEN2K、Quantum Espresso和LS-DYNA。