傳統的樣本分析師們都很難容忍錯誤數據的存在,因為他們一生都在研究如何防止和避免錯誤的出現。
在收集樣本的時候,統計學家會用一整套的策略來減少錯誤發生的概率。
在結果公布之前,他們也會測試樣本是否存在潛在的系統性偏差。這些策略包括根據協議或通過受過專門訓練的專家來采集樣本。但是,VPS,即使只是少量的數據,這些規避錯誤的策略實施起來還是耗費巨大。
尤其是當我們收集所有數據的時候,這就行不通了。不僅是因為耗費巨大,還因為在大規模的基礎上保持數據收集標準的一致性不太現實。就算是不讓人們進行溝通爭吵,也不能解決這個問題。
大數據時代要求我們重新審視精確性的優勢。如果將傳統的思維模式運用于數字化、網絡化的21世紀,就會錯過重要的信息。
執迷于精確性是信息缺乏時代和模擬時代的產物。在那個信息貧乏的時代,任意一個數據點的測量情況都對結果至關重要。所以,我們需要確保每個數據的精確性,才不會導致分析結果的偏差。
如今,歐洲服務器租用 云服務器,我們已生活在信息時代,我們掌握的數據庫越來越全面,它不再只包括我們手頭現象的一點點可憐的數據,而是包括了與這些現象相關的大量甚至全部數據。我們不再需要那么擔心某個數據點對整套分析的不利影響。我們要做的就是要接受這些紛繁的數據并從中受益,而不是以高昂的代價消除所有的不確定性。
在華盛頓州布萊恩市的英國石油公司切利博因特煉油廠里,無線感應器遍布于整個工廠,形成無形的網絡,能夠產生大量實時數據。酷熱的惡劣環境和電氣設備的存在有時會對感應器讀書有所影響,形成錯誤的數據。
但是數據生成的數量之多可以彌補這些小錯誤。隨時監測管道的承壓使得BP能夠了解到,有些種類的原油比其他種類更具有腐蝕性。以前,這些都是無法發現也無法防止的。
有時候,當我們掌握了大量新型數據時,精確性就不那么重要了,我們同樣可以掌握事情的發展趨勢。
大數據不僅不再讓我們期待精確性,也讓我們無法實現精確性。
然而,除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。
值得注意的是,錯誤性并不是大數據本身固有的。它只是我們用來測量、記錄和交流數據的工具的一個缺陷。
如果說哪天技術變得完美無缺了,不精確的問題也就不復存在了。
錯誤并不是大數據固有的特性,而是一個亟需我們去處理的現實問題,并且有可能長期存在。
因為擁有更大數據量所能帶來的商業利益遠遠超過一點精確性,所以通常我們不會再花大力氣去提升數據的精確性。
這又是一個關注焦點的轉變,正如以前,統計學家們總是把他們的興趣放在提高樣本的隨機性而不是數量上。如今,大數據給我們帶來的利益,讓我們能夠接受不精確的存在了。