亚洲视频一区二区,里番在线播放,久久综合色婷婷

我們還有智能網(wǎng)卡，可以通過RDMA將數(shù)據(jù)和控制卸載在網(wǎng)卡上做。

SHIELD是針對大規(guī)模網(wǎng)絡(luò)里面可靠性的解決方案，以前網(wǎng)絡(luò)斷了交給子網(wǎng)管理器，去重新規(guī)劃路徑，這是軟件方面來做。如果一千個節(jié)點，大概需要5秒鐘，用戶基本無法忍受，應(yīng)用也會中斷。但是如果我們通過SHIELD的功能硬件做網(wǎng)絡(luò)收斂，不管是端口斷了還是線斷了，硬件自己解決。這基本上可以控制在毫秒級之內(nèi)，交換機自動找另外一個端口，數(shù)據(jù)從A傳送到B。可以有本地恢復(fù)的功能，也可以通過網(wǎng)絡(luò)的方式把通知信息發(fā)給相鄰的交換機，直到找到另外一條路，數(shù)據(jù)傳過來就可以了。

另外隨著網(wǎng)絡(luò)的規(guī)模越來越大，網(wǎng)絡(luò)的可靠性要求非常高，如果網(wǎng)絡(luò)有問題的話可能需要提交作業(yè)重新做。目前來說用CPR的技術(shù)來做，但是要消耗很多時間，尤其作業(yè)非常大的情況下是不可以接受的，所以可靠性就非常重要。如果一個端口、線斷掉了，能不能不有任何影響，我們可以做到。

另外SHARP可以極大的降低CPU的使用率，因為我們可以把CPU工作負載進行工作，免備案空間香港服務(wù)器，AI里面也可以用到這樣的技術(shù)。

以下是Mellanox資深系統(tǒng)工程師于若信的演講實錄：

10月17日，2018年開放數(shù)據(jù)峰會（Open Data Center Summit 2018，下文簡稱ODCC）數(shù)據(jù)中心網(wǎng)絡(luò)分論壇在北京國際會議中心舉辦。ODCC關(guān)注數(shù)據(jù)中心產(chǎn)業(yè)的各個方面，從國家政策和法規(guī)，到地方制度和項目，從產(chǎn)業(yè)全局發(fā)展到具體技術(shù)落地，從尖端熱點技術(shù)到傳統(tǒng)行業(yè)推廣，從國內(nèi)到國際，從宏觀到微觀，全力推動中國數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展。

另外就是Tag Matching，一個點到另一個點傳輸數(shù)據(jù)的時候有一個Tag，需要匹配標簽。以前都需要CPU去做，造成CPU的負載很大，現(xiàn)在Tag Matching可以跟網(wǎng)卡交換機做，這樣對于小的信息或者大的信息都可以應(yīng)用，可以極大的降低延遲和CPU的使用率。

RDMA可以用在哪幾個方面呢？MPI、SHMEM、PGAS都可以支持，非常成熟。還有AI領(lǐng)域，現(xiàn)在幾乎所有的框架都支持RDMA，當然還有大數(shù)據(jù)分析里面的spark、Hadoop，可以用RDMA，我們也有一些測試、例子，在高頻交易、數(shù)據(jù)庫、以及分布式數(shù)據(jù)庫解決方案都可以用到RDMA解決方案，還有存儲，包括文件系統(tǒng)，像常見的并行文件系統(tǒng)都可以支持RDMA。

這是目前最快的系統(tǒng)，實際上是全球真正的E級計算。用到了我們的交換機，其中用到了EDR，Dual-Rail是很好的技術(shù)，把兩個網(wǎng)口可以提高到一個并行帶寬。一個計算節(jié)點有42Tflops計算能力，最后兩個網(wǎng)卡可以提供23GB/s的速度，來滿足對高性能計算數(shù)據(jù)處理的要求。當然一些新的技術(shù)在這個項目里也用到了，比如說自適應(yīng)路由，還有亂序包的處理，都可以提高網(wǎng)絡(luò)的使用效率。

如果基于硬件來看的話，隨著節(jié)點數(shù)量的增加，延時基本上實現(xiàn)是穩(wěn)定的。相對于CPU做的話，延時基本上是很快的，大概有10倍的差距。如果是30—40微秒用CPU做的話，用SHARP做的話是3—4微秒。

SHARP最早是HPC里用的非常多的，在AI特別是深度學(xué)習(xí)的數(shù)據(jù)并行的時候很多操作是跟HPC非常類似的，就是聚合類通信的操作。所以我們在AI里也可以用到SHARP，比如說是數(shù)據(jù)并行的應(yīng)用模式。有很多Worker拿到模型之后需要做一些訓(xùn)練，會有一些節(jié)點梯度平均、梯度同步，同步完了之后要有一個參數(shù)服務(wù)器，更新的模型再發(fā)給Worker去訓(xùn)練，實際上就是這樣一個操作。我們就可以用到SHARP這種技術(shù)。SHARP有兩點，第一點可以極大的減少節(jié)點之間數(shù)據(jù)通訊，我們不需要從這個節(jié)點把數(shù)據(jù)傳到另外一個節(jié)點，我們直接給交換機就可以了，交換機去做工作，這是減少節(jié)點間通信，尤其是對于AI訓(xùn)練的時候節(jié)點非常多的應(yīng)用場景來說，效果是非常明顯的。

網(wǎng)絡(luò)內(nèi)計算對性能提升來講還是非常明顯的，剛才提到了SHARP是10倍的提升。

降低CPU使用率對用戶來說帶來很多好處，不管在計算還是其他的應(yīng)用場景里，都可以擴展到更多的核數(shù)。以前我們有這種經(jīng)驗，如果我們提交一個作業(yè)到64、128線程，性能都在增加，但是超過512線程之后性能就會下降了，其原因是CPU更多時間花在了數(shù)據(jù)通信上面，而用在計算的時間反而少了。優(yōu)化之后CPU核利用率降低，計算時間很多，實際上Tag Matching可以很好的提升應(yīng)用擴展能力，起到加速作用。

GPUDirect RDMA/Async，很多場景都會用到它，InfiniBand卡可以直接注冊、調(diào)用GPU的內(nèi)存，通過網(wǎng)絡(luò)來操作數(shù)據(jù)直接拷貝，使用起來也非常方便，也非常成熟。

這是一個比較，如果你用到RDMA和不用RDMA的差別還是很大的，從延時到帶寬。