數據是人工智能(以下簡稱AI)技術的燃料,也被比喻為數據經濟中的石油。在AI時代,數據的采集、存儲、傳輸和處理需要強大的基礎設施作為支撐。數據中心和數萬臺服務器成為互聯網巨頭的標配。
8月22日,今日頭條與英特爾舉辦主題為“數據賦能,AI正當時”的戰略合作發布會,會上,今日頭條介紹與英特爾合作的超10萬臺服務器的大規模數據中心,同時雙方宣布成立技術創新實驗室,在大數據和AI方面進行更長遠戰略合作。
這兩年,頭條系產品用戶量增長迅猛,要處理的數據也是呈指數級增長。
近日頭條技術副總裁楊震原介紹,目前,今日頭條每日數據處理量超過50PB、存儲數據超過1500PB、評論系統每天的評論數大概有1億條,需要大量的服務器來處理這些內容。
2013年3月字節跳動的服務器數量只有幾十臺,到年底增至一千臺,此后便是上萬臺的增長。在2017年年初的時候,公司大概有2-3萬臺服務器,現在大概有17萬臺服務器。
今日頭條對大型數據中心的需求是急迫的。楊震原介紹道,字節跳動花費了不到九個月的時間在懷來創建起了超大規模的數據中心。數據中心投入運營創立了國內多個第一,包括國內首個大平層預制數據中心,首個整體電源模塊預制數據中心,首個大規模分布式數據中心,首個間接蒸發冷卻模塊數據中心。
據以往報道,今日頭條在懷來的數據中心是第三方廠商秦淮數據定制的,投資60億元,主要承載數據存儲、挖掘分析、應用等數據交易生態體系和云服務生態體系,定位為國家級新媒體企業提供高可靠性的云計算服務。
字節跳動2016年初開始有新建數據中心的計劃,懷來的基礎設施相對不完善,但是潛力巨大。2017年12月字節跳動開始在懷來數據中心放置服務器,目前一期園區約5萬臺服務器已經投入使用,正在緊鄰一期園區建設二期,規模增加一半但預計工期相同,大概能容納9萬臺服務器。
數據中心是互聯網巨頭的標配,但是也不是一勞永逸的方法。楊震原談到,“懷來數據中心已經滿載運行了,下一步我們還要建設更大規模的數據中心。但是,更大規模的數據中心實際上只是解決擴展性的問題,我們有資源的情況下可以迅速的擴充資源,支撐我們的業務發展。但未來的挑戰也非常大,我們也不可能完全靠堆資源的方式解決我們的問題。
舉一些我們未來的挑戰,比如全球化運營,字節跳動在歐洲、北美、南美、東南亞都有很多產品和用戶。全球化運營過程中我們會面臨海外IDC的建設還有長距離傳輸的挑戰,尤其是我們的推薦系統是一個非常緊耦合的結構,這個對我們的挑戰非常大。再比如,數據規模會進一步的擴大,會帶來一些計算模式的演進,還有算法沉淀、商業模式帶來的一些問題。
另外,新硬件的變化,手機移動端和5G網絡這些新的變化可能會帶來未來計算模式到底是什么樣的變化,是不是有更多的計算offload在外面,我們的傳輸是不是有新的模式去運作,這些問題對我們都有很大的挑戰,而且我們不能都僅僅通過加資源去解決,這就是我們為什么去跟英特爾更加緊密的合作,我們希望不僅僅在資源的累積上,而是做更多的創新,更多的算法,我們能夠給英特爾提出更多的問題,我們一起去合作,這些東西是為了解決我們的挑戰,而且我希望這些東西能夠輸出給行業,能夠帶動市場的發展,所以這是共贏一個事情。”
AI驅動的全球內容平臺
這幾年,AI風口正盛,而今日頭條正是依靠算法、AI技術快速崛起的新銳AI公司代表。在2016年,今日頭條創辦人工智能實驗室,旨在推動人工智能前沿技術研究,讓機器深入理解文字、圖片、視頻、環境場景和用戶興趣,從而促進人類信息與知識交流的效率和深度。主要研究機器學習、圖像識別、自然語言處理、語音識別等AI技術。
據今日頭條算法架構師曹歡歡介紹,今日頭條在目前在多方面運用AI技術:第一方面是做內容推薦的算法,目前頭條、抖音、火山、西瓜都在大量地使用這方面的技術;第二是自然語言處理,主要用來分析文章內容、用戶評論等,對內容推薦是很重要的支撐。此外,我們也在用NLP技術做寫稿機器人“Xiaomingbot”;另外是計算機視覺,我們在抖音、火山、FaceU激萌等短視頻App上用到了很多的CV技術,例如人臉特效、背景分割、“尬舞機”、內容審核、封面選擇、AI剪輯等;最后是語音識別,免備案主機,這個方面應用還不多,目前是用在抖音、火山、西瓜里的內容審方面,將視頻的語音內容識別成文字,然后利用NLP技術去發現不良內容、惡意營銷等。