欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

揭秘！阿里數(shù)據(jù)中心大幅降低成本的核心技術(shù)：混部技術(shù)

2018-03-08 中國(guó)IDC圈 202

每年雙十一創(chuàng)造奇跡的背后，是巨大的成本投入。為了完成對(duì)流量峰值的支撐，我們需要大量的計(jì)算資源，而在平時(shí)，這些資源往往又是空閑的。另一方面，為了在極端情況下，如機(jī)房整體斷電等還能保障阿里巴巴的業(yè)務(wù)不受損失，也需要在全國(guó)各地建立冗余資源。而且就算是一天當(dāng)中，在線(xiàn)服務(wù)的負(fù)載也是不一樣的，白天一般情況下要比凌晨高得多。根據(jù)蓋特納和麥肯錫前幾年的調(diào)研數(shù)據(jù)，全球的服務(wù)器的CPU 利用率只有 6% 到 12%。即使通過(guò)虛擬化技術(shù)優(yōu)化，利用率還是只有 7% -17%，而阿里巴巴的在線(xiàn)服務(wù)整體日均利用率也在 10% 左右。

另一方面，全球從 IT時(shí)代全面走向了 DT時(shí)代，現(xiàn)在又在向更深入的 AI 時(shí)代邁進(jìn)。各各樣的大數(shù)據(jù)處理框架不斷涌現(xiàn)，從 hadoop 到 Spark，從 JStorm 到 Flink，甚至包括深度學(xué)習(xí)框架 Tensorflow 的出現(xiàn)，成千上萬(wàn)的數(shù)據(jù)分析背后是大量的計(jì)算任務(wù)，占用了大量的計(jì)算資源。由于計(jì)算任務(wù)占用的計(jì)算量很高，CPU 水位通常在50%-60% 以上，不同于在線(xiàn)服務(wù)，計(jì)算任務(wù)的峰值通常出現(xiàn)在凌晨，水位甚至能達(dá)到 70% 以上。所以我們往往就會(huì)建立獨(dú)立的計(jì)算任務(wù)集群。

很多人都被車(chē)堵過(guò)，而堵車(chē)的時(shí)候，并不是所有的車(chē)道都在堵車(chē)。有一個(gè)比較有趣的情況，我們稱(chēng)之為潮汐現(xiàn)象，而它造成的問(wèn)題是在早高峰的時(shí)候是進(jìn)城方向堵車(chē)，而晚高峰是出城方向堵。而為了緩解這個(gè)問(wèn)題，我們使用了潮汐車(chē)道的方式。

那么同樣的原理，是否如果能讓這兩個(gè)集群混合起來(lái)部署，讓計(jì)算任務(wù)的一部分任務(wù)跑到在線(xiàn)服務(wù)的資源之上，把在線(xiàn)服務(wù)空閑的資源利用起來(lái)呢?答案是肯定的。

混部技術(shù)簡(jiǎn)介

揭秘！阿里數(shù)據(jù)中心大幅降低成本的核心技術(shù)：混部技術(shù)

混部技術(shù)示意圖

把集群混合起來(lái)，將不同類(lèi)型的任務(wù)調(diào)度到相同的物理資源上，通過(guò)調(diào)度，資源隔離等控制手段 , 在保障 SLO 的基礎(chǔ)上，充分使用資源能力，極大降低成本，我們稱(chēng)這樣的技術(shù)為混部(Co-loaction)。

揭秘！阿里數(shù)據(jù)中心大幅降低成本的核心技術(shù)：混部技術(shù)

打個(gè)比方，跑在容器里的在線(xiàn)服務(wù)就像石塊;而計(jì)算任務(wù)我們把它比喻成沙子和水。當(dāng)在線(xiàn)壓力小的時(shí)候，計(jì)算任務(wù)就占住那些空隙，把空閑的資源都使用起來(lái)，而當(dāng)在線(xiàn)忙的時(shí)候，計(jì)算任務(wù)就立即退出那些空隙，把資源還給在線(xiàn)業(yè)務(wù)。這樣的技術(shù)一方面在平時(shí)，我們可以極大地提升資源的利用率;另一方面，在大促活動(dòng)需要突增在線(xiàn)服務(wù)器的時(shí)候，又可以通過(guò)在線(xiàn)業(yè)務(wù)占用計(jì)算任務(wù)資源的方式，來(lái)頂住那短暫的峰值壓力。

從原理中我們可以看到可以混部在一起的任務(wù)有兩個(gè)比較重要的特征：

1.可以劃分優(yōu)先級(jí)：一定需要優(yōu)先級(jí)比較低的任務(wù)，它們能像水和沙子一樣，隨時(shí)能被趕走，而不會(huì)受到不可承受的影響，讓優(yōu)先級(jí)高的任務(wù)不受干擾。在線(xiàn)的特點(diǎn)是：峰值壓力時(shí)間不長(zhǎng)，香港服務(wù)器租用，對(duì)延時(shí)比較敏感，業(yè)務(wù)的壓力抖動(dòng)比較厲害，典型的如早上 10 點(diǎn)的聚劃算活動(dòng)，就會(huì)在非常短的時(shí)間內(nèi)，造成交易集群的壓力瞬間上升 10 幾倍，對(duì)于穩(wěn)定的要求非常高，在混部的時(shí)候，必須要保證在線(xiàn)的通暢，需要有極強(qiáng)的抗干擾能力。而計(jì)算任務(wù)的特點(diǎn)是：平時(shí)的壓力比較高，相對(duì)來(lái)說(shuō)計(jì)算量可控，并且延遲不敏感，失敗后也可以重跑。至少需要幾分鐘跑完的計(jì)算任務(wù)，相對(duì)于幾秒甚至幾十秒的延遲，并不會(huì)產(chǎn)生嚴(yán)重的問(wèn)題，正好可以承提起水和沙子的角色。

2.資源占用互補(bǔ)性：兩種任務(wù)在不同的時(shí)間點(diǎn)對(duì)水位的占用不一樣。如在線(xiàn)服務(wù)是，平時(shí)比較低，大促時(shí)比較高;凌晨比較低，白天比較高。而計(jì)算任務(wù)則反過(guò)來(lái)，平時(shí)比較高，服務(wù)器租用免備案服務(wù)器，大促時(shí)可以降級(jí);凌晨非常高，白天卻要低一些。

這種方式帶來(lái)的成本節(jié)省是非常巨大的：假設(shè)數(shù)據(jù)中心有 N 臺(tái)服務(wù)器，利用率從R1 提高到 R2，不考慮其他實(shí)際制約因素的情況下，節(jié)約 X 臺(tái)，那么理想的公式是：

N*R1 = (N-X)*R2

=> X*R2 = N*R2 – N*R1

=> X = N*(R2-R1)/R2

也就是說(shuō)如果企業(yè)有 10 萬(wàn)臺(tái)服務(wù)器，利用率從 28% 提升到 40%，代入上述公式，就能節(jié)省出 3 萬(wàn)臺(tái)機(jī)器。假設(shè)一臺(tái)機(jī)器的成本為 2 萬(wàn)元，那么節(jié)約成本就有6 個(gè)億。

揭秘！阿里數(shù)據(jù)中心大幅降低成本的核心技術(shù)：混部技術(shù)

2015 年，Google 發(fā)表了 Borg 論文，其中就提到了在線(xiàn)服務(wù)與計(jì)算任務(wù)之間的混合運(yùn)行，也就是我們說(shuō)的混部技術(shù)。Borg 論文中描述了 Google 由于采用了這項(xiàng)技術(shù)，為 Google 節(jié)省了 20%-30% 的機(jī)器規(guī)模。

混部技術(shù)的歷程

揭秘！阿里數(shù)據(jù)中心大幅降低成本的核心技術(shù)：混部技術(shù)

阿里巴巴早期混合云架構(gòu)

欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

虛擬主機(jī)

300元/年起購(gòu)

云服務(wù)器

服務(wù)器租用

服務(wù)器托管

香港服務(wù)器

美國(guó)服務(wù)器

亞洲服務(wù)器

歐洲服務(wù)器

增值服務(wù)

300元/年起購(gòu)

網(wǎng)站建設(shè)

3000元 起購(gòu)

軟件銷(xiāo)售

合作產(chǎn)品

數(shù)據(jù)中心

揭秘！阿里數(shù)據(jù)中心大幅降低成本的核心技術(shù)：混部技術(shù)

夢(mèng)飛云服務(wù) - 關(guān)鍵詞 - 標(biāo)簽

3000元起購(gòu)