美國科學哲學家漢弗萊斯將大數據分為兩類,一類 是大寫的大 數 據(BIG DATA), 另 一 類 是 小 寫 的 大 數 據(big data)。小寫的大 數 據指與數 據科學 相關的活動和方法,是擁有海量數據的組織機構所面臨的技術問題 ;而當這些活動、方法尤其關于處理海量數據的技術向社會各領域滲透并迅速發展時,便產生了大寫的大數據。這意味著我們平常所用的“大數據”所指的對象并不同一。大數據激進派的代表人物安德森、舍恩伯格等認為 :數據可以客 觀 地 表征世界 ;只 要 數 據量 足夠大,就不需要模型、問題及相關的理論,只要在數據的驅動下,數據可以自己發聲 ;相關性是世界的本質 ;由于大數據可以完全避免人類的主觀因素進入科學研究,大數據知識發現的模式更客觀、更自由。大數據保守派的代表人物有弗洛里迪、克勞德、皮耶奇等,他們一方面承認大數據的獨特性,另一方面對大數據是否能客觀反映實在、大數據是否是理論自由的、大數據能否完全取代小數據、相關性能否代替因果性等都保持理性的懷疑態度,并且通 過案例,對 激 進派的各種論 調一一進行反駁。
案例一人類數感研究
人類對物體或事件的數量存在一種非言語的表征方式,區別于通過言語或數字符號對數量的精確表征,具有近似性和不精確性,心理學家稱之為近似數 量系統(ANS)。ANS是一種與生俱來的結構,無論人還是動物都有,它不僅體現在視覺任務中,也能體現在聽覺任務中,是人類數感和形成數學能力的基礎,在理論上服從韋伯定律。腦科學研究表明,腦區雙側的頂內溝處大致為ANS系統所處的位置。目前,腦科學和心理科學的相關研究成果被廣泛應用到教育教學實踐中。但長期以來,對ANS的研究缺乏對人的整個生命周期的研究,因為實踐中很難對每一個樣本進行終生的追蹤研究。大數據技術出現之后,約翰霍布斯大學的心理學 家 哈 爾伯 達(J. Halberda)通過已有的ANS理論,構造出測試模型,香港服務器租用,然后向全球征求志愿者,在線完成測試任務。在短短的幾個月時間里,免備案主機,便收集到了分布在全球不同地區的13000名年齡在11-85歲的測試者。通過對這些數據的分析,哈爾伯達不但完成了對人類數量感知力發展的整體描述、驗證了前期對于不同年齡階段ANS與數學水平之間的理論假設,填補了這一領域的研究空白,而且 還發現了之前沒有發現的一些“意外”規律。
案例二谷歌流感預測
季節性流感是人類社會長期面臨的一個世界性的威脅和問題,據統計,全球每年約有25萬-50萬人死于季節性流感。因此,對季節性流感進行預測并提前防控具有重要意義。美國疾 病控制和預防中心(CDC)、歐洲流 感監測計劃(EISS)所使用的流感預測系統,都是依據病毒學理論,使用臨床監測數據,對流感進行預測,并向公眾發布預測報告,但預測報告通常會滯后1-2周。隨著互聯網與大數據技術的發展,研究人員發現在某一地區,某些詞的互聯網搜索頻率與流感樣疾病(influenza-like illness,ILI)病例的就診比率高度相關。2008年,谷歌建立了一種通過分析谷歌搜索查詢來跟蹤、預測流感的系統。在谷歌的預測模型中,自變量為同一地區與流感樣疾病相關的檢索詞的檢索頻率。將模型的預測結果與CDC的結果相比較,發現對2008年各季度預測的結果與美國CDC的監測結果的相關系數達到0.97。而最為關鍵的是,由于可以快速處理搜索查詢,谷歌的預測報告比CDC的提前1-2周。
分析SSD與SDS
以上兩個大數據案例恰好代表了兩個大數據流派對大數據的看法。當研究者基于案例一來分析時,必然會得出大數據研究離不開模型、以問題驅動、相關性不能代替因果性等,而對于影響人類“數感”的機制是什么仍舊懸而未決 ;如果以案例二為依據則可以得出,大數據不需要具體問題,
雖然兩類大數據有區別,但隨著不斷融合,它們之間的界限越來越模糊。SDS的數據雖然依 賴于網絡技術的發展,但其所使用的方法、模型很多都是來自于SSD的研究成果。正如漢弗萊斯所指出的,當小寫的大數據向社會各領域滲透并迅速發展時,便產生了大寫的大數據。綜上所述,由于大數據所指陳的對象并不同一,即客觀上存在著兩類既有區別又有聯系的大數據,因此,在開展相關研究時,研究者首先要明確自己所研究的對象屬于哪一類,如此才不至于陷入激進派與保守派無休止的論爭漩渦。