12月3日,由百易傳媒(DOIT)主辦的2019中國數據與存儲峰會(DATA & STORAGE SUMMIT)在北京盛大開幕,與眾專家對新一代關鍵存儲技術趨勢及數據創新應用進行了熱議,大家一致認為數據智能將成為數字產業發展的關鍵推動力,驅動中國和企業數字化轉型。
在會上,華中科技大學武漢光電研究中心謝長生教授發表了題為“海量大數據長期存儲的挑戰與變革性技術”主題演講。標題為編者所加。
以下內容根據速記整理,未經本審定。
華中科技大學武漢光電研究中心信息存儲系統教育部重點實驗室謝長生教授
謝長生:大家下午好!我今天演講的題目叫“海量大數據長期存儲的挑戰與變革性技術”。
說起來,很多人對數據存儲的時間考慮的比較短,能有五年就不錯了。我今天要講的是一個長期存儲的問題。長期存儲提出了什么樣的挑戰?這里有兩個詞,一個叫“Big Data”,是熱詞,還有一個“Long Data”是一個冷詞。目前主流存儲介質在保存時間方面是短板,硬盤平均壽命是5年,固態盤也只有5年,磁帶長一點,大概10年,而人的平均壽命75歲,與人相關的信息至少要保持75年,包括銀行存款、保險、住房等個人資料,以及手機拍攝的照片,最好一輩子保存下來;也包括政府、企事業單位、軍隊的數據都需要長期保存;重要檔案還需要永久保存。
除了國家級的單位,需要長期保存的傳統電影資料也是很困難的,膠片保存幾十年,都已經很失真了。我去過中央電視臺資料館,他們是用的磁帶庫有八萬多磁帶,長期保存下去也存在很大的問題,還有國家圖書館,國家投了大量資金。省級的保護工作就差多了,某文化大省古書有五十萬冊,現在有半數都損壞了,對我們文化遺產是非常大的損失。
一次全國性研討會的信息與感受
上個月,我參加了“全國數字資源長期保存”相關的全國學術研討會,那些真正用到長期保存的國家圖書館、中科院檔案館、國家科技文獻中心等機構集中在一起,進行討論。
參加這個會議,我有幾點感受。
一是數字資源的長期保存,對我們國家而言是極為重要的。比如說中國科學院有那么多所,所有科研項目都要永久存檔保存;二是他們因此成立了國家數字資源長期工作保存體系工作組(NDPP),從法律法規到管理制度到技術體系,全方位都考慮到了,工作做的非常細致,三是正在規劃建設國家文獻戰略儲備庫,投入巨大,一個建筑群都設計好了;四是技術層面還面臨非常大的挑戰,采用現有的技術,維持費用是與日俱增的,希望有更好的技術。在發言中,他們提到了我們十年前提出的概念——池光電融合的技術。經過十年努力,我們已經推出了相應的產品來。
對于國家級長期存儲甚至是永久存儲的需求,我們從事存儲的研究機構和企業能不能滿足需要?
很多行業信息非常重要,是丟不得的,一丟就會產生很大的損失。所以很多國家出臺了強制性的法律。最有名的就是安然事件以后美國出臺的塞班斯法案,強制企業要永久保留數據,用于打官司什么的,必須拿出不可篡改原始數據。美國各個行業有長期保存的法案,歐盟也規定了數據保留法案,規定每個行業數據要保存多少年,我們國家也陸續出臺了各種各樣的法案,去年規定要求電子病例最少要保存三十年,人的壽命75年,最少保存三十年。
除了很重要的信息以外,我們還有很多冷數據也是要長期保存的。
比如大家都在用的微信朋友圈。前一段時間參加了騰訊開發者大會討論了這個問題,說每天光朋友圈上傳的照片就是十億張,第一天發布的時候很多人點贊,非常熱,第二天數據急劇的變冷,第三天就沒有人訪問了。但朋友圈的照片又不能扔掉,騰訊從微信開始那天到現在的數據都在保留,保留在硬盤當中(三個副本),而且會一直保留下去,一天十億張照片,應該說有上百萬臺硬盤在不停的運轉,這就是越來越大的能源負擔。雖然有一種技術使它休眠,但控制起來其實也有一定的問題。除了消耗硬盤運轉的能源以外,還有冷卻,這么多硬盤在一起發熱很嚴重,硬盤一旦沒有空調是很容易損壞的,這樣這個成本是與日俱增。
互聯網之父的擔憂