5 月 27 日,生命大數據高峰論壇暨第四屆基因組云計算技術開發者峰會(GCTA 4)在貴陽隆重舉行。作為 2019 數博會的重要組成部分,會議聚焦“閱讀、管理、理解、計算生命大數據”,分享前沿學術報告,解讀最新政策及行業動態,為生命大數據的研究與應用再添新動力。
圍繞如何搭建生命應用大平臺,魏曉鋒分享了國家基因庫生命大數據平臺(CNGBdb)的設計思路及服務優勢,并展示了 CNGBdb 在助力生命大數據研究與應用方面取得的成果。以下是內容詳情。
生命就是大數據,其載體可能是動物、植物,也有可能是細胞,甚至磁盤或磁帶。這里涉及一個關鍵詞:種質(編者注:種質是指生物體親代傳遞給子代的遺傳物質,往往存在于特定品種之中。 如古老的地方品種、新培育的推廣品種、重要的遺傳材料以及野生近緣植物,都屬于種質資源的范圍)。
哪些種質的應用對經濟有較大價值?中國的種質資源豐富到什么程度?對于豐富的種質資源,應該如何做好信息存儲?
另外,每個人都是一個行走的大數據庫。每個人從受精卵成長及至衰老,整個身體里動態維持著 40 多萬億細胞,每個細胞里都有 23 對染色體。IT 領域經常提到一個詞叫量級,提升一個量級需要經常更新方法。而在 BT 領域的難題是,我們每個人有 3G 的基因組數據,通過測序分析會產生數百 GB 甚至 1TB 以上的數據。海量數據對平臺和方法有更嚴苛的要求。
搭建數據組織的頂層設計
面對龐雜的數據,CNGBdb 團隊把自身的數據和公開的信息進行了整合。那么,如何在上層構建一個新的載體以組織連接?魏曉鋒認為,在這個平臺上,需要做三件事情:數據、系統、網絡。
具體到數據。CNGBdb 構建了一個數據倉庫,整合了內外部的數據,建立標準流程,所有的數據都以節點的形式來承載。
此外還有數據挖掘。整個平臺被分成數據層、平臺層、應用層。未來,用戶如需創建數據應用,國內服務器,只需一個按鈕,就能像做選擇題一樣選擇相關模塊。
對應到網絡,作為一個平臺,并不是一個孤獨的數據點。CNGBdb 整合了全球的公開生命數據資源,香港免備案主機,覆蓋母嬰健康、腫瘤、動植物多樣性、病原微生物等十幾個研究領域,形成一個超大型的科研數據系統。
CNGBdb,打造基因界的谷歌
CNGBdb 的主頁界面
魏曉鋒介紹,CNGBdb 目前已經建立覆蓋健康與疾病、生物多樣性、微生物等領域的十大專有數據庫,專精專用;支撐數十篇科研成果發表,被《Cell》《Nature Genetics 》《Nucleic Acids Research》等國際期刊引用;并通過樣本信息共享平臺(E-BioBank)對外共享相關信息,而且配有對應的標本照片。
可以說,CNGBdb 以統一門戶的形式,為用戶一站式解決搜、存、算、用全部需求,且對用戶免費開放,努力打造“基因界的谷歌”。
CNGBdb 一站式解決搜、存、算、用全部需求
此外,依托國家基因庫對生物數據的“存”、“讀”、“寫”聯動,CNGBdb 將樣本元數據與生物樣本甚至活體信息相關聯,因此數據可以在“生物活體——生物樣本——生物信息數據”全過程中進行追溯,實現綜合數據的全貫穿。
魏曉鋒稱,從開始的“載體”到“連接”,再到最后以“平臺”的形式展示,CNGBdb 作為一個對外的窗口,展示了數據的可能性。另外,就服務體驗而言,CNGBdb 更希望做成一本字典,讓所有人通過這個字典都可以方便快捷地了解到更多更豐富的信息。
未來,CNGBdb 將持續促進生命大數據的共享與利用,使生物信息數據在生命科學與生物產業發展中創造更大價值。
【凡本網注明來源非中國IDC圈的作品,均轉載自其它媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。】