大數據是從什么時候就火起來的,準確時間已經不好查找,但是不妨礙概念火爆至今。雖然近一兩年里,它的勢頭被人工智能、AI蓋過去了,但是仍然是非常火爆的IT內容。
其實所謂大數據,并不是真正的信息技術范圍內的東西,而應當是統計學范疇里的內容。印象里最早提出大數據運用的應當是在生物醫學領域。比如基因測序,動輒就幾十萬幾百萬的數據量。記得在2008年中國腫瘤大會上發言討論統計學中關乎邏輯回歸模型數據過多導致過度擬合問題的時候,一個行業大佬告我們在基因學研究中全都是上百萬的數據!當時非常震驚。
隨著馬云公布的淘寶銷售數據中,人們發現當海量數據匯總在一起的時候,會展現出許多不容易為人所知的信息,并且通過對數據的分析能夠有一定的預測能力后,大數據真正進入了大家的腦海里。一瞬間無數軟件公司不約而同地將研發目標瞄準了大數據應用。無論是否研發出了有實質性的軟件,但是在產品介紹的時候,宣傳的非常的炫酷,似乎沒有大數據解決不了的問題。
那么到底大數據是什么呢?或者什么樣的數據才能稱得上大數據呢?
BIG DATA從誕生的時候并沒有嚴格的定義。大家第一印象對大數據的描述已經比較準確,那就是大,海量的數據!如果打印成紙張能夠把人淹沒。
有多少數據才算大數據?如果說100G就醫記錄算不算大數據呢?大數據其實跟數據容量沒有關系。隨著技術的發展,現今一個患者的全身CT掃描產生的數據量就可以達到1G。100G數據不過是100個人的影像數據而已,算不上大數據。
可是如果這100G的數據完全是一條條的記錄匯聚而成,倒是算有些規模。不過也稱不上大數據,準確的說法應當是數據湖。盡管數據有了一定規模的積累,但是在運用的時候還是不能夠準確得出結論。因為數據來源過于單一沒有廣泛的代表性。比如一個醫院就算是擁有了100G的診療記錄,但是患者都是當地或者周邊的人。如此狹小地域的數據是無法代表其他地方的疾病特征的(假以時日,北京的大型醫院匯總了足夠多的全國患者的數據的話,倒是有了充足的代表性)。再說很難有普通單位或組織能夠擁有如此大規模的數據量,所以在普通的組織單位中是不存在所謂大數據的。
真正的大數據是存儲在政府、跨國企業以及像百度、騰訊、阿里巴巴這樣的巨型IT企業手里。他們的數據庫中儲存有來源于全國各地的,各式各樣的數據。其數據量已經遠遠不是TB級別的了。通過對如此大規模的數據中,服務器租用 免備案服務器,就可以很容易發現人們的購買趨勢,消費水平波動,以及疾病流行情況等等。
總之大數據的的確確是存在的,但不是我們普通IT人能夠接觸到的。而我們身邊存在大量小數據,如果借助信息化手段對小數據進行發掘,同樣是有許多可做之處的。
任何單位、組織、公司的數據規模都算是小數據。通過對其進行分析既可以達到決策管理的目標的,完全用不上大數據登場。從最常見的醫學研究來說,對于某種疾病的對照實驗,通常患者數量在幾十人到百十號人,如果能夠有上千人的研究樣本,就算放在國際學術研究中也是規模龐大的了。
隨著數據的增長,收集數據的成本越高。比如查詢必須的資料,收集必備的人員信息,進行人工隨訪等等。研發的信息系統能夠將這部分工作實現的很好,那無論對研究也好,決策也好都能有著積極的作用。
不過由于軟件工程師大多沒有接受過數據方面的培訓,只是專注于IT技術的學習,所以在軟件研發的時候,并沒有數據的概念。導致最主要的后果是,某些在當下或者外來需要使用的字段并沒有被囊括進程序中,導致了數據的缺失。比如在醫院準備進行某個科研項目的統計,發現沒有一個系統記錄了核心字段,從而使得研究不得不回歸人工手段,花費大量時間進行增加與補充。
現在許多系統的作用也僅僅是實現了數據的記錄,香港服務器租用,從而證明在什么時間什么地點發生了什么。至于這些數據往往無法被進一步加工分析。現有的應用系統還有大量需要改進的內容,等待著軟件工程師實現。