數據湖,顧名思義就是一個存儲了大量各種不同數據的地方,而且這些數據通常都非常原始,而且易于讀取和分析。在醫療健康行業,數據湖的價值在于能夠支持快速有效的分析和產生洞察,釋放出醫療數據巨大的商業價值。
其實長期以來,醫療行業的各種機構就在思考如何充分的挖掘出醫療健康大數據的巨大價值,而這背后首先需要解決的就是需要構建一個靈活的數據架構,否則數據就依然是孤島,無法體現出其意義。
在醫療領域,一個最常見和最迫切需要解決的挑戰,就是把截然不同的各種來源的醫療數據整合到一起,形成一個中央型的數據存儲。哈佛商業評論最近的一個調查就發現,一個典型的醫療機構通常會有至少5種以上的數據來源,更多的情況是超過15種數據來源。這些不同來源格式迥異的數據,VPS租用,如果沒有一個有效的方式組織和存放,就會形成數據沼澤--數據像垃圾一樣無序的堆放,無法讀取,無法整合,無法有效分析。
正是基于這樣的需求和挑戰,基于云計算的數據湖應運而生。全球知名的云計算廠家都在開發和推廣自己的數據湖方案,而醫療行業是最有希望從中獲益的一個行業。據分析,醫療行業的數據湖需求將在接下來的2年內持續增長,而且毫無放緩的跡象。
數據湖不同于傳統的數據倉庫。
數據湖存儲的是原始數據,而數據倉庫存儲的則是歷史和當前的組織數據。 數據倉庫適合分析結構性數據,又快又準,用于管理和法規等場景。而數據湖則主要是為組織內部實驗和分析構建,組織可以調用多種來源的多樣數據隨時進行各種分析。 企業或組織可以根據需要使用數據湖或者數據倉庫,倒不是說誰比誰更好,關鍵還是在于理解什么樣的方案最符合自己。
越來越多的醫療設備以及機器學習的廣泛應用,推動了醫療行業對數據湖的期望和極大興趣。
要開發數據湖,目前還是需要專業的幫助,尤其是要找到有經驗的醫療信息化專家。總體上來說,VPS,有三個重要因素是需要首先考慮的: