二十世紀以來,我們的數據存儲方式從磁帶、軟盤和CD等介質進化到了能夠在無數微型晶體管中保存數據的精密半導體存儲芯片。
但是,人類不斷增加的數據會對存儲方式帶來新的壓力,也將推動存儲方式的持續變革,DNA或將在這一次變革中發揮重要作用。
信息大爆炸時代,何處安放數據?
在摩爾定律之下,我們已經看到硅芯片存儲容量呈指數級增長。然而,與此同時,人類產生新的數字信息的速度同樣呈現出了爆發式增長狀態。
截至2016年,數據用戶每天生產超過440億GB的數據。據IDC預測,到2025年,這一數字將超過4600億GB,而全球當年產生的數據總量將達到160 ZB(160萬億GB)。
另據預測,到2020年全球可能會有30億到50億的全球人口接入互聯網,這些新增的互聯網用戶所產生的數據同樣會面臨大規模的增長。
總之,我們或許很快就會生產出遠超我們存儲能力的更多數據。
雖然網絡服務商與各大互聯網公司都將從新增的數據節點與流量中獲利巨大,美國站群服務器 亞洲服務器,但這也會對動則數千萬甚至上億美元的數據中心建設帶來顯著壓力。
去年,僅美國就花費了200億美元用于新的數據中心建設,使數據中心建設的資本支出比2016年翻了一番。
此外,自然界中很少有純的存儲器級硅元素,而研究人員預測它將在2040年被耗盡。
隨著利用DNA進行數據存儲的新興技術的出現,這些問題將會成為過去時。通過將數據編碼進DNA的微小分子,在未來,我們可以將整個數據中心放入幾瓶DNA中。
什么是DNA存儲?
那么,什么是DNA存儲?
DNA是由四個堿基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鳥嘌呤(G)的雙螺旋鏈構建而成的。這些鏈一旦形成,就緊緊地折疊起來,形成非常密集、又節省空間的數據存儲器。
為了將數據文件編碼到這些堿基中,我們可以使用各種算法,將二進制轉換為堿基核苷酸:也就是將0和1轉換為A、T、C、G,而“00”可以被編碼為A;“01”編碼為G,“10”編碼C,“11”編碼為T。
將數字編碼轉化為化學編碼,這就是DNA數據存儲最核心的奧秘。
一旦編碼,則可以通過具有特定堿基模式的合成DNA來存儲信息,最終被編碼的序列可存儲在具有保質期長達數千年甚至上萬年的小瓶子里。而從理論極限上來看,一克DNA就能存儲2.15億GB的數據。
應對挑戰
但是,在目前,數據編碼的成本還非常昂貴,存儲速度很慢,數據讀取也難以實時。同時,數據的檢索與讀?。ㄍㄟ^基因測序儀),特別是對大型數據庫的隨機訪問如何不出錯,也是科研機構和大公司正在攻克的問題。
目前,華盛頓大學開發的DNA存儲系統已經可以實現隨機訪問其系統中超過400M DNA編碼的數據而不出錯。400M,看起來如此微小的數據量,則可能是通往未來大規模DNA存儲的一大步。
更多研究人員也已經在研究分子計算的潛力。
例如,哈佛大學的George Church教授和他的實驗室設想在DNA中直接捕獲數據。正如Church所說:“我對制造沒有任何電子或機械部件的生物相機很感興趣”,信息可以由此“直接進入DNA”。
Church表示,DNA記錄器將自動捕獲視聽數據。“你可以把它畫在墻上,如果有什么有趣的事情發生,只需要刮掉一點并讀取它。這一天的到來并不會那么遙遠。”
有一天,我們甚至可以記錄體內的生物事件。為了實現這一目標,Church的實驗室正在努力開發一種完全不需要電極的體內神經活動DNA記錄器。
未來應用潛力
即使在我們能夠保證無誤的數據檢索與隨機訪問之前,DNA數據存儲也具有直接的市場應用。
當前,大部分企業都將其歷史數據直接進行歸檔。而隨著時間的推移,大多數數據變得不再那么重要,被快速檢索的必要性也不再那么大。這必然會造成基礎設施、計算能力的浪費。
反之,數據編碼的DNA可以在寒冷、黑暗和干燥的條件下保存長達10000年的時間,而隨著檢索算法和生化技術的改進,跨數據編碼的DNA的隨機訪問可能變得和點擊桌面上的文件一樣簡單,儲存成本也只會是當前模式下存儲成本的一小部分。
總之,DNA也許是我們手頭上最緊湊、最持久、最普遍的存儲機制,將為我們提供前所未有的數據存儲應用,甚至是計算。
此時,傳統數據中心模式下的硅基存儲將是低效的。
隨著DNA數據存儲成本的下降和速度的提高,以及用戶能夠很容易地將文件、圖像甚至神經活動保存到DNA中,新的商業機會將會出現。
這可能正是微軟公司計劃在2020年建立基于NDA的數據存儲系統的動力所在。
在此背景下,公司將可以擁有自己的數據倉庫和本地數據網絡,以提高網絡安全性,尤其是重要檔案的安全性。