2018年2月,春節剛過,北京還籠罩在霧霾中,上地某酒店,服務器租用,阿里云工程師們摩拳擦掌。
他們從115科技“踩點”回后,推演了各種可能,確保萬無一失,遂決定正式啟動“肯尼亞”遷移項目。
肯尼亞,橫跨赤道,是野生動物的王國,每年7-9月都會上演最為傳奇的動物大遷徙。
在阿里云內部,“肯尼亞”遷移項目指115科技的數據大遷移。
115科技是一家成立十年、以云存儲起步的高新技術企業,旗下核心產品之一“115個人”(原“115網盤”)是國內最早一批上線的云盤產品。
但做云盤的苦,只有做過才知道。出于自身發展的綜合考量,115科技決定上云。
1. 差點用勞斯萊斯運冰塊
2009年“115個人”產品上線后,115科技喊出「改變分享」的口號,以便捷的文件分享功能贏得海量用戶的喜愛,且不放廣告、不限速,用戶體驗好。一時間,幾乎全國各大論壇、軟件廠商、游戲廠商、設計論壇、教育機構、漫畫及影視行業全部在用“115個人”進行文件分享。
到2017年底,115科技個人注冊用戶接近1.5億,隨之而來的是,硬件成本節節攀升,要不斷地租機房、買機器,繁重的運維工作如排山倒海襲來。
115科技日常需要運行維護接近5000臺服務器,安置在廣東東莞、梅州、佛山等地的數據中心,共約10萬塊硬盤。硬盤不斷讀寫數據,損耗極大。
硬盤一旦損壞,就需要及時的備份恢復。115科技為此專門組建了一支“救火隊“——七人換盤小分隊。
隊員們背景各異,有設備運維,有網絡維護,也有幫忙搬運設備的廚房工作人員等。需要換盤時大家實時響應,平時就從事本職工作。
“救火隊”的工作龐雜,不僅要換盤,有時數據中心沒有硬盤備份時,他們還要集體出動采購硬盤,或從其他機房開車運送硬盤。甚至機房制冷供電系統出現故障,也要第一時間趕到檢修。
有一次大朗機房空調制冷出現問題,小分隊需要運送冰塊到現場,由于當天公司還有其他接待任務,車輛緊張,還差點動用公司的勞斯萊斯運冰塊。小分隊在機房蹲了一夜,用風扇吹冰塊為設備降溫,并密切關注是否有硬盤損壞,以備隨時更換重啟。
作為網盤行業的資深玩家,115科技的存儲技術已經爐火純青,卻吃夠了硬件的苦頭。
同時,網盤的市場格局也在不斷變化,用戶對網盤的體驗提出了一些新要求。是繼續把精力耗損在維護硬件上,還是把所有精力集中在業務創新?115科技走到了岔路口。
2.上云,要上云
必須上云,上云才能解決問題。
這個決定來的突然但是堅決。2017年12月,115科技創始人賴霖楓忽然召集核心成員開會,傳達了這個決定。沒人有異議。但所有人都知道,這不是一件容易的事,畢竟115科技的數據量已經到了100PB。
100PB數據有多大?按普通DVD約4GB容量算,就相當于2500萬張DVD,每天觀看一張,大約要68000年才能看完。
會后第二天,115科技的上云小組就開始和各個廠商探討方案。其中,阿里云是最后一家。
高手過招,兩三回合后便可將對方底氣探個大概。「我們聊了聊存儲方面的技術問題,發現對方都非常有研究。」阿里云中國區解決方案總經理霍嘉回憶說。
115科技向霍嘉坦言已經接觸過幾家云廠商,霍嘉也大方指出這個項目比較復雜。首先,115個人是一個在線系統,遷移過程不能影響用戶正常使用,因此這是一個熱遷移問題。其次,115個人上數據量大,存儲及業務系統復雜,因此更需要詳細設計。
霍嘉說,115科技上云這一項目和優酷上云的項目非常相像。都是以非結構化數據為主的圖片及視頻業務,存儲需求類似;也都是線上系統,需要保持不宕機。
有了優酷的遷移經驗,霍嘉多了一份底氣。他把整個上云過程進行了拆分講解,找到關鍵節點及風險點,并估算了時間。他的判斷是,這個項目需要90天完成。
對于115科技來說,遷移時間是非常敏感的考量指標。因為在遷移過程中,公司需要負擔雙份的硬件及帶寬費用。
「動不動就幾千萬上億的,這誰扛得住啊。」
盡管深知115科技方面對時間的敏感,霍嘉還是堅持三個月遷移周期的評估, 「100PB的數據遷移,史無前例。這種事一定要對客戶負責。因為開工沒有回頭箭。」
3. 決戰45天
阿里云在周期評估過程中的專業與堅持,讓115科技信心大增。
賴霖楓也在項目結束后談到,最打動他的是阿里云的方案從實際出發,是最接地氣的方案。
「不像是甲乙方,更像是戰友和伙伴。」他評價說。