如何將散落的、非標準化的、復雜的醫療大數據集合起來并可使用、可計算,需要做大量且復雜的工作。當然這并非不可能實現,但需要成本及時間。
人類已經全面進入大數據時代。而醫療與大數據的“聯姻”一直被人們所期待,但遺憾的是大部分醫療數據仍處于“沉睡”狀態。如何真正進行實踐,讓大數據為醫生、為患者服務,賦能醫療新形態,依然是擺在我們面前的一道難題。
2016年,國務院發布《關于促進和規范健康醫療大數據應用發展的指導意見》,要求加快建設統一權威、互聯互通的人口健康信息平臺,推動健康醫療大數據資源共享開放;同年,《“健康中國2030”規劃綱要》提出,消除數據壁壘,建立和完善全國健康醫療數據資源目錄體系。2017 年,國務院發布《“十三五”深化醫藥衛生體制改革規劃》,提出健全基于互聯網、大數據技術的分級診療信息系統;應用藥品流通大數據,拓展增值服務深度和廣度。
醫療大數據的應用早已突破診療過程,與整個健康體系密切相關,對藥物研發、健康管理和公共衛生服務等環節都具有重要意義。如何實現各個專門數據庫與大數據平臺之間的聯通與配合,打通數據“孤島”,是擺在醫療大數據實踐面前的一道鴻溝。
北京大學腫瘤醫院院長、教授季加孚以美國和日本的案例對此進行了分析。他指出:“目前國際大型腫瘤數據庫大致分為兩類:基于人群的數據庫和基于醫院系統的數據庫。美國SEER(監測、流行病學和結果)數據庫和日本癌癥登記數據庫屬于前者,而美國的NCDB(國家癌癥數據庫)和日本的NCD(國家臨床數據庫)屬于后者。”
比較來看,不同類型數據庫所能實現的效果不同。季加孚分析說:“基于醫院的數據庫,更符合臨床需求,可為患者診斷與治療提供更多有針對性的信息。但是這類數據庫存在就診偏倚,并不能很好地反映人口學分層的特點,例如NCDB和SEER數據庫在某些癌種的種族、年齡分布上存在差異?;谌巳旱臄祿炝餍胁W意義更加明確,能為國家戰略制定提供更多依據。通常兩種形式數據庫間的相互融合、數據共享能起到1+1>2的作用。”
那么不同數據庫之間是如何配合的呢?以日本NCD和癌癥登記數據庫為例,NCD主要收集詳盡的圍術期數據,而隨訪數據的積累一定程度上需依靠癌癥登記數據庫完成。由于《癌癥登記法》的強制性和廣泛覆蓋,服務器租用 免備案服務器,腫瘤登記處會收集腫瘤患者的預后信息。這些信息會由登記處返回到提供信息的醫院,NCD即可通過醫院獲取腫瘤相關預后信息。
乳腺癌、胃癌、食管癌、肝癌等專病數據庫也逐步并入NCD。此外,NCD還和DPCD(日本診斷程序組合數據庫)等醫療保險數據庫互通,開展衛生經濟學相關研究。與之類似,美國SEER數據庫與醫療保險合作,形成了SEER-Medicare數據庫。
跨界合力才能打通數據“孤島”
在大數據領域從業近十年的架構師沈辰在接受采訪中告訴《中國科學報》,大數據具有所謂的“4V”屬性,即大規模(volume)、多樣性(variety)、產生和變化速度快(velocity)和價值密度低(value)。
“醫療大數據也是一樣,如何將這些散落的、非標準化的、復雜的數據集合起來并可使用、可計算,需要做大量且復雜的工作。當然這并非不可能實現,但需要成本及時間。”
南京醫科大學接受第二附屬醫院 腸病中心主任張發明在采訪中提出,醫療行為過程中會產生大量的數據,而將這海量的數據進行處理,真正為醫療服務,大部分醫院目前不具備這樣的能力和經驗,需要大型數據服務商的支持。
上海第九人民醫院在2013年搭建了基于臨床數據倉庫(CDR)大數據集成平臺,其合作對象是微軟中國。通過對所有的業務數據庫的表單進行系統整合與深度挖掘,實現對醫院的內部運營管理、醫療質量控制、醫院感染管理、績效考核與分配等實時數據分析管理,并且整合了單病種臨床數據庫與樣本庫、基因庫關聯的臨床科研信息系統在臨床研究方面的應用。
杭州健培科技有限公司是一家從事醫學影像大數據挖掘和醫療人工智能技術的企業,開發了閱片機器人“啄醫生”。董事長兼CEO程國華在創業初期就親身經歷過醫生與科技人員在思維與工作方式方法上的碰撞,他在采訪中告訴《中國科學報》:“醫療大數據的應用絕不單純是醫療領域的事情,而是一項跨學科的問題。”