中國首座“考古DNA實驗室”,借助浪潮AI計算的FPGA產品方案,其對古人類的全基因組樣本(WGS)分析時間,從原來的2周縮短到近9小時。
神秘的古DNA研究有多“難”?
上下五千年,各民族在中華大地上生息繁衍、融合變遷,留下了很多未解之謎。為了解開這些謎團,考古學、民族學專家運用多種方法進行了探索。近年來興起了一種新方法——古DNA技術,為考古研究提供了更加直接有力的證據,開辟了全新的視角。
古DNA是指從古代人類和動物遺骸以及古生物化石中提取的古代生物分子。把古代DNA數據同現代基因庫中的數據資料相結合,便可以構建出某一生物門類的系統發育樹,從而進一步探討人類的演化與遷移、民族融合、早期農業發展、動植物的家養與馴化過程等重大問題。
古DNA研究需要經過提取、擴增、測序等步驟,比現代DNA研究要難得多。特別是提取DNA分子非常困難,因為古生物沒有特別的存儲條件,在自然環境下,DNA完好地保存下來并不容易。DNA儲存在細胞核內,生物體在死亡過程中,細胞就會逐漸發生自溶,DNA很快會被降解。另外,在高溫和潮濕的條件下,DNA自身也容易發生水解、斷裂。同時,即便有細胞保存下來也會碰到其它微生物的進駐,所產生的酶類也會把原細胞內的DNA破壞掉;因此,一般死亡的動物和人的遺體,DNA很難完整保存下來。
這些原因使得古DNA基因序列片段比現代DNA更短,導致古DNA測序比現代DNA也要更復雜。不僅讀取、比對的數據量更大,測序之前還需要去除DNA片段兩端的接頭序列,進行數據清洗與處理流程。
中國首座考古DNA實驗室如何解難題?
為了更好地保護中國基因資源,推動中華民族基因研究,1998年,吉林大學考古系與生命科學學院合作開展了有關古DNA方面的研究工作,由此中國第一座“考古DNA實驗室”落成。邊疆考古研究中心人類學實驗室與考古DNA實驗室合作攻關重大研究課題,取得了多項全國乃至全球領先的研究成果。
隨著DNA考古研究的逐步深入,考古DNA實驗室已有超過萬例的古人類、古動植物樣本,數量位居全國第一,建立我國邊疆地區古代DNA基因庫的時機日益成熟。但樣本數量增加也帶來了新的難題,原有的計算設備已難以在短時間內完成大量的基因測序數據處理工作。全基因組樣本分析(WGS)與全外顯子組樣本(WES)分析是目前DNA研究的不可或缺的兩大分析流程。然而,使用當前以CPU為基礎的計算架構開發的GATK Best Practices工作流程,需要數天甚至數周才能完成單個個體的基因組變異識別。
此外,古DNA基因序列片段更短導致數據處理量更大,對計算力的要求也更高。數據清洗、測序過程中,需要用到非常多的不同于現代DNA測序的應用軟件,如何實現這些應用軟件的快速移植與開發也是一大挑戰,影響古DNA的研究速度。
“我們之前一直用臺式工作站做古DNA的測序數據處理,一般完成一次古人類的全基因組樣本分析需要耗時至少兩周,過程中還要面臨宕機帶來的處理流程中斷風險。按這種效率,我們要建立邊疆地區古代DNA基因庫幾乎是一個不可能完成的任務。”吉林大學邊疆考古研究中心副主任蔡大偉教授介紹說,“但是,這個問題必須盡快解決,古DNA研究一刻都不能耽誤”。
浪潮為解決這一難題提供了新思路,作為中國AI計算的領軍企業,浪潮專門為基因測序開發了FPGA加速計算方案,FPGA具有可編程、并行計算、低延遲的優勢,能夠為基因測序、語音識別、視頻處理、風險管理等AI和HPC場景提供強大的加速。經過嚴苛測試和全面考察,吉林大學考古學院決定和浪潮合作,將FPGA技術運用到古DNA基因測序中,打造我國DNA考古領域的首個FPGA基因測序加速應用方案。
提速39倍 基因測序處理速度實現飛躍
新的基因測序加速計算方案采用了浪潮研發的F10A FPGA加速卡作為核心計算模塊,集成了峰科的GATK基因處理軟件。浪潮F10A是目前業界支持OpenCL的最高密度、最高性能的FPGA加速設備,尺寸為半高半長功耗僅35W,可以適用于數據中心、邊緣及桌面等各種復雜計算環境,每瓦特性能達到42GFlops,可以加載專業的軟件算法庫。集成的峰科的GATK基因處理軟件與標準生物信息學分析工具完全一致,包括GATK Best Practices的所有流程,如BWA、picard和GATK。它完全依照原軟件模型,調用命令與原版本一致,中間產生與原樣本一致的中間結果文件,方便用戶使用和調整。