欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

國內(nèi)資訊

一個點到另一個點傳輸數(shù)據(jù)的時候有一個Tag

我們還有智能網(wǎng)卡,可以通過RDMA將數(shù)據(jù)和控制卸載在網(wǎng)卡上做。

SHIELD是針對大規(guī)模網(wǎng)絡(luò)里面可靠性的解決方案,以前網(wǎng)絡(luò)斷了交給子網(wǎng)管理器,去重新規(guī)劃路徑,這是軟件方面來做。如果一千個節(jié)點,大概需要5秒鐘,用戶基本無法忍受,應(yīng)用也會中斷。但是如果我們通過SHIELD的功能硬件做網(wǎng)絡(luò)收斂,不管是端口斷了還是線斷了,硬件自己解決。這基本上可以控制在毫秒級之內(nèi),交換機自動找另外一個端口,數(shù)據(jù)從A傳送到B。可以有本地恢復(fù)的功能,也可以通過網(wǎng)絡(luò)的方式把通知信息發(fā)給相鄰的交換機,直到找到另外一條路,數(shù)據(jù)傳過來就可以了。

另外隨著網(wǎng)絡(luò)的規(guī)模越來越大,網(wǎng)絡(luò)的可靠性要求非常高,如果網(wǎng)絡(luò)有問題的話可能需要提交作業(yè)重新做。目前來說用CPR的技術(shù)來做,但是要消耗很多時間,尤其作業(yè)非常大的情況下是不可以接受的,所以可靠性就非常重要。如果一個端口、線斷掉了,能不能不有任何影響,我們可以做到。

另外SHARP可以極大的降低CPU的使用率,因為我們可以把CPU工作負載進行工作,免備案空間 香港服務(wù)器,AI里面也可以用到這樣的技術(shù)。

以下是Mellanox資深系統(tǒng)工程師于若信的演講實錄:

10月17日,2018年開放數(shù)據(jù)峰會(Open Data Center Summit 2018,下文簡稱ODCC數(shù)據(jù)中心網(wǎng)絡(luò)分論壇在北京國際會議中心舉辦。ODCC關(guān)注數(shù)據(jù)中心產(chǎn)業(yè)的各個方面,從國家政策和法規(guī),到地方制度和項目,從產(chǎn)業(yè)全局發(fā)展到具體技術(shù)落地,從尖端熱點技術(shù)到傳統(tǒng)行業(yè)推廣,從國內(nèi)到國際,從宏觀到微觀,全力推動中國數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展。

另外就是Tag Matching,一個點到另一個點傳輸數(shù)據(jù)的時候有一個Tag,需要匹配標簽。以前都需要CPU去做,造成CPU的負載很大,現(xiàn)在Tag Matching可以跟網(wǎng)卡交換機做,這樣對于小的信息或者大的信息都可以應(yīng)用,可以極大的降低延遲和CPU的使用率。

RDMA可以用在哪幾個方面呢?MPI、SHMEM、PGAS都可以支持,非常成熟。還有AI領(lǐng)域,現(xiàn)在幾乎所有的框架都支持RDMA,當然還有大數(shù)據(jù)分析里面的spark、Hadoop,可以用RDMA,我們也有一些測試、例子,在高頻交易、數(shù)據(jù)庫、以及分布式數(shù)據(jù)庫解決方案都可以用到RDMA解決方案,還有存儲,包括文件系統(tǒng),像常見的并行文件系統(tǒng)都可以支持RDMA。

這是目前最快的系統(tǒng),實際上是全球真正的E級計算。用到了我們的交換機,其中用到了EDR,Dual-Rail是很好的技術(shù),把兩個網(wǎng)口可以提高到一個并行帶寬。一個計算節(jié)點有42Tflops計算能力,最后兩個網(wǎng)卡可以提供23GB/s的速度,來滿足對高性能計算數(shù)據(jù)處理的要求。當然一些新的技術(shù)在這個項目里也用到了,比如說自適應(yīng)路由,還有亂序包的處理,都可以提高網(wǎng)絡(luò)的使用效率。

如果基于硬件來看的話,隨著節(jié)點數(shù)量的增加,延時基本上實現(xiàn)是穩(wěn)定的。相對于CPU做的話,延時基本上是很快的,大概有10倍的差距。如果是30—40微秒用CPU做的話,用SHARP做的話是3—4微秒。

SHARP最早是HPC里用的非常多的,在AI特別是深度學(xué)習(xí)的數(shù)據(jù)并行的時候很多操作是跟HPC非常類似的,就是聚合類通信的操作。所以我們在AI里也可以用到SHARP,比如說是數(shù)據(jù)并行的應(yīng)用模式。有很多Worker拿到模型之后需要做一些訓(xùn)練,會有一些節(jié)點梯度平均、梯度同步,同步完了之后要有一個參數(shù)服務(wù)器,更新的模型再發(fā)給Worker去訓(xùn)練,實際上就是這樣一個操作。我們就可以用到SHARP這種技術(shù)。SHARP有兩點,第一點可以極大的減少節(jié)點之間數(shù)據(jù)通訊,我們不需要從這個節(jié)點把數(shù)據(jù)傳到另外一個節(jié)點,我們直接給交換機就可以了,交換機去做工作,這是減少節(jié)點間通信,尤其是對于AI訓(xùn)練的時候節(jié)點非常多的應(yīng)用場景來說,效果是非常明顯的。

網(wǎng)絡(luò)內(nèi)計算對性能提升來講還是非常明顯的,剛才提到了SHARP是10倍的提升。

降低CPU使用率對用戶來說帶來很多好處,不管在計算還是其他的應(yīng)用場景里,都可以擴展到更多的核數(shù)。以前我們有這種經(jīng)驗,如果我們提交一個作業(yè)到64、128線程,性能都在增加,但是超過512線程之后性能就會下降了,其原因是CPU更多時間花在了數(shù)據(jù)通信上面,而用在計算的時間反而少了。優(yōu)化之后CPU核利用率降低,計算時間很多,實際上Tag Matching可以很好的提升應(yīng)用擴展能力,起到加速作用。

GPUDirect RDMA/Async,很多場景都會用到它,InfiniBand卡可以直接注冊、調(diào)用GPU的內(nèi)存,通過網(wǎng)絡(luò)來操作數(shù)據(jù)直接拷貝,使用起來也非常方便,也非常成熟。

這是一個比較,如果你用到RDMA和不用RDMA的差別還是很大的,從延時到帶寬。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務(wù)器租用 夢飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 乌拉特后旗| 太和县| 根河市| 富蕴县| 运城市| 利辛县| 大英县| 大渡口区| 昔阳县| 江永县| 合肥市| 普兰县| 永川市| 东光县| 屏山县| 四子王旗| 盐源县| 佛教| 北票市| 康乐县| 阿鲁科尔沁旗| 大埔区| 沿河| 浦江县| 崇仁县| 平顶山市| 吕梁市| 临清市| 广丰县| 开鲁县| 林西县| 布尔津县| 东丽区| 博湖县| 广汉市| 利辛县| 敦煌市| 沅江市| 泰安市| 古交市| 平昌县|