飛天2.0支撐2018全社會的雙11
同年11月11日,淘寶商城啟動了一個叫做雙11的促銷活動。
阿里云自研神龍彈性裸金屬服務器在核心系統中發揮巨大作用。其基于完全自研的新一代軟硬融合的X-Dragon虛擬化架構,兼具物理機和虛擬機優勢,解決了高峰值流量下的性能瓶頸。
貓晚網絡直播創下帶寬峰值記錄,阿里云視頻云高可靠直播方案完美保障了優酷2500萬用戶的體驗。
CDN為中國1/3以上的互聯網流量提供加速,視頻云在海外為Lazada提供直播服務。
全新的基礎設施讓全球最大規模的人機協同成為了可能。雙11大量AI和視頻轉碼業務部署在ECS的GPU集群之上,包括視頻云的視頻智能處理、阿里小蜜、拍立淘和新零售的智能供應鏈管理等AI業務都通過阿里云異構計算GPU昊天平臺進行加速。
2017年雙11,MaxCompute單日數據處理超過320PB。
飛天的高速成長也給了所有人信心:5年的時間,飛天平臺集群規模從1500臺到3000臺,2013年8月,單集群超越5000臺,同時支持多集群跨機房計算……
人工智能助手‘阿里小蜜’在雙11當天承擔95%的客服咨詢。
2015年開始,雙11構建了全球最大的混合云,將公共云和專有云無縫連接。
阿里巴巴數據中心機器人“天巡”每天在機房巡邏,能接替運維人員以往30%的重復性工作。
然而,移動端帶來的海量數據卻是真實存在的,移動端帶來的新需求,也推動了阿里云大數據平臺的發展。
如果說最初的技術變革是為了解決平臺的流量峰值問題,那么現在新的篇章已經開啟,新技術正在引領商業變革。
一年后,飛天的第一個版本上線,僅有幾十臺機器的集群開始服務第一個內部客戶——阿里金融。
實時計算Blink處理峰值達到每秒17.18億條,相當于120萬本新華字典的數據量。
毫無疑問,雙11就是這樣一個典型場景。
MaxCompute支撐在線流量洪峰12萬筆/秒交易,承載45%導購流量。
從線上到線下,從生產制造到物流配送,從國內到海外,阿里云的技術能力延伸到各行各業。而這只是這些新技術應用的冰山一角,云與AI、IoT的有機融合未來還會產生什么化學反應?我們拭目以待。
2007年淘寶的交易額突破了400億,技術團隊卻喜憂參半:現有集中式架構已經捉襟見肘,該如何應對?
而這些成果最終成為了全社會的能力:無論是春節在12306搶票,還是在世界杯期間的狂歡,抑或是微博上的明星八卦,脈沖計算的能力在今天已經變成了常態。
國內首次大規模IPv6商業應用實踐,云、網、端以及應用全面支持IPv6。
基于阿里云的ECS云服務器、RDS云數據庫、SLB負載均衡網絡,商家訂單源源不斷的推送到商家平臺上,保障了數據的穩定和延續。這是云計算首次參與雙11,并且實現了191億的交易總額。
2011年,飛天團隊開始探索支撐集團內部數倉業務,在1500臺機器上并行運行云梯2的生產作業,并取得了不輸于Hadoop的性能和穩定性成績。
AI設計師“鹿班”,在雙11期間設計了4.1億張商品海報。
2017年的雙11被認為是人類歷史上最大規模的人機協同“超級工程”:技術運維、商品推薦、客服、支付、物流等各個環節都引入機器智能。
AI調度官“達靈”將數據中心資源分配率拉升到90%以上。
通過MaxCompute引擎助力,從2014年雙11開始,千人千面成為常態。現在,這一產品已經成為阿里巴巴的主力計算平臺:
事后,這群國內互聯網行業最優秀的技術人開始意識到這已經不僅僅是一場商業促銷活動,更是一次技術大考。
菜鳥智慧貨倉機器人單日可發貨超過100萬件。
2010年春,大數據引擎MaxCompute的前身SQL Engine第一版上線,運行在當時30臺機器的飛天集群上。
今年雙11期間,阿里云上新增調用的彈性計算能力累計超過1000萬核,相當于10座大型數據中心,創造了“脈沖計算”的新紀錄。不僅如此,飛天2.0的新能力全面支撐雙11:
飛天5K項目之后,MaxCompute隨之進入5000臺機器和跨機房調度時代,并且可以在377秒完成100TB的排序。
流量狂奔:脈沖計算
在消費側,IoT技術服務新零售的同時,正在催生新的追蹤經濟。消費者可以查看進口商品完整的商品溯源實時信息,確保天貓進口商品安全可溯,遠洋運輸也實時可見。
前傳
幾年過去,“船票論”煙消云散,然而大數據平臺帶來的價值已顯山露水,通過大數據與人工智能算法的結合,MaxCompute已成為ET大腦最重要的組成部分,ET城市大腦自動指揮城市路口信號燈,并且成功應用于馬來西亞的交通治理;ET工業大腦推動工廠取得更好的良品率,致力于幫助制造企業提升1%的良品率。
每天有超過500萬個作業在平臺上運行;
史上最大規模的人機協同
初春剛過,阿里云在北京一棟沒有暖氣的寫字樓寫下了飛天第一行代碼。
業界首個百萬級IOPS的ESSD云盤提供了數十PB的存儲規模,應對了史上最大的高并發IO挑戰。
次年,天貓與阿里云、萬網宣布聯合推出聚石塔平臺,率先以云計算為“塔基”,為天貓、淘寶平臺上的電商及電商服務商提供IT基礎設施。
盡管這次技術升級在現在看來存在諸多局限性:更多的是為了應對不斷增多的圖片緩存,在CDN端對海量的圖片緩存做了一些限流操作。但就是這次改造成就了歷史上第一個雙11,2009年雙11當天的流量達到了一個高峰,在舊的架構體系下,這幾乎是一項不可能完成的任務。
在這些技術底座之上,整個系統應對流量洪峰更加從容,當天交易額達到創紀錄的2135億。
接下來幾年,國內服務器租用 服務器托管,云主機租用,云計算逐漸成為這場狂歡節中的基石,到2014年,聚石塔上96%的交易使用了阿里云。
2013年前后,“船票論”在互聯網圈極為流行。“船票”成為了人們對于一家公司有沒有未來的判斷依據。至于如何拿到這張船票,彼時都非常模糊。
半年后的武漢云棲大會上,阿里云首次和合作伙伴一起展出了AI智能點單設備,在沒有任喚醒詞的情況下,客戶以每秒5個字的速度,向一臺機器點單,并頻繁更換語句,這臺機器對每次對話均作出了精準應答。
從27個品牌參加成交額不過數千萬元開始,到現在的千億級體量,雙11已經成為一個未來商業實踐的范本,也是新技術的最大試驗場,這些新技術逐漸變成全社會的基礎能力,撬動一場全球的社會大協作。
在制造側,助力天貓品牌服裝廠商數字化接單、下單和備貨,個性化生產、柔性化制造,交期準確率近乎100%;對農業生產、運輸、銷售進行全鏈路升級。
當然,IoT的登場則為雙11創造了更大的想象空間。
數據、計算力、算法是人工智能的三大核心要素。飛天在通用計算服務的基礎上,開始探索面向人工智能的異構計算。
2011雙11的流量洪峰給技術團隊留下了午夜驚魂般難忘的回憶:系統性技術問題,使大量商家可能出現超賣。
數據平臺,計算創造價值
這些探索讓所有人看到了一個趨勢:用分布式的方法將傳統、昂貴的小型機硬件和軟件,替換成通用的X86的服務器集群,虛擬化等技術可以讓計算能夠按量、隨時被啟動。
隨即啟動的分布式改造獲得巨大成功,淘寶所有的業務都做了模塊化。
結語
誰也沒想到,多年以后他們會是現在這模樣。
2017年9月12日,阿里云宣布推出全新一代異構計算加速平臺,在行業內第一次覆蓋了包括AMD、NVIDIA的GPU和Intel、XILINX的FPGA在內的所有6款主流異構實例,提供最高可達75TFLOPS的算力。
阿里機器智能推薦系統雙11當天為用戶生成超過567億個專屬“貨架”,像智能導購員一樣,給消費者“億人億面”的個性化推薦。
現在,這些基礎設施以及商業化的產物正服務于各行各業。
阿里巴巴集團99%的數據存儲以及95%的計算能力使用MaxCompute;
2009年,發生了兩件看似不起眼的事。
鮮為人知的是,2004年,為了從大數據中分析當前狀況,并預測未來的趨勢,阿里就擁有了第一個大數據倉庫,到2008年,淘寶的業務量與數據量已達到2004年的數千倍,為了讓數據成為生產資料,從底層重構大數據技術就顯得尤為重要。
云盾為云上客戶提供上千萬次風險識別服務,并將DDoS高防技術輸出到全球,保障全球業務。
從計算機誕生到90年代,計算資源都是作為“可計劃性”的資源來使用。無論是探索月球,還是研究基因的奧秘,計算資源本身是可規劃的。然而,互聯網時代的到來,一個爆發性事件,就有可能挑戰整個計算資源,不確定性如影隨形。