亚洲美女黄网,日本一不卡视频,国产有码在线一区二区视频

從數(shù)據(jù)稀缺到現(xiàn)在有大量的數(shù)據(jù)，近年來，可用的數(shù)據(jù)量呈指數(shù)級增長，大數(shù)據(jù)變得無處不在。這是由于數(shù)據(jù)記錄設(shè)備數(shù)量的巨大增長，以及這些設(shè)備之間通過物聯(lián)網(wǎng)連接。似乎每個人都有收集、分析大數(shù)據(jù)的力量。

但是，大數(shù)據(jù)真的是萬能的嗎？毫無疑問，大數(shù)據(jù)已經(jīng)在某些領(lǐng)域產(chǎn)生了至關(guān)重要的影響。例如，幾乎每一個成功的人工智能解決方案都涉及大數(shù)據(jù)處理問題。

首先要注意的是，盡管AI目前非常擅長在大型數(shù)據(jù)集中查找模式和關(guān)系，但它仍然不是很智能。計算數(shù)字可以有效地識別并發(fā)現(xiàn)數(shù)據(jù)中的細(xì)微模式，但不能直接告訴我們這些相關(guān)關(guān)系中哪些實際上有意義。

相關(guān)性和因果關(guān)系

我們都知道“相關(guān)性并不意味著因果關(guān)系。“然而，人類的大腦天生就會尋找規(guī)律，當(dāng)我們看到曲線傾斜在一起，數(shù)據(jù)中出現(xiàn)明顯的規(guī)律時，我們的大腦就會自動給出規(guī)律。”

然而，從統(tǒng)計數(shù)據(jù)來看，我們?nèi)匀粺o法實現(xiàn)這一飛躍。《虛假相關(guān)性》(false)一書的作者Tyler Vigen在自己的網(wǎng)站上對此進(jìn)行了調(diào)侃，還有很多例子比如展示冰淇淋是如何明顯地導(dǎo)致許多壞事的，從森林大火到鯊魚襲擊和脊髓灰質(zhì)炎爆發(fā)。

看看這些情節(jié)，人們可能會爭辯說，我們很可能早就應(yīng)該禁止冰淇淋了。而且，實際上，在1940年代的小兒麻痹癥例子中，公共衛(wèi)生專家建議人們停止吃冰淇淋作為“反政治飲食”的一部分。幸運的是，他們最終意識到小兒麻痹癥暴發(fā)與冰淇淋消費之間的相關(guān)性是“完全是由于小兒麻痹癥的爆發(fā)在夏季最為普遍”。

在統(tǒng)計中，虛假關(guān)系或虛假相關(guān)性是一種數(shù)學(xué)關(guān)系，其中兩個或多個事件或變量相關(guān)聯(lián)，但由于某種偶然的或某些第三個未見因素的存在而因果相關(guān)（稱為“常見響應(yīng)”變量”、“混雜因素”或“潛伏變量”）。這樣的“潛伏變量”的例子可以是冰淇淋銷量與鯊魚襲擊之間的相關(guān)性（雖然冰淇淋銷量的增長不會導(dǎo)致鯊魚襲擊人們）。但是，這兩個數(shù)字之間有一個共同的環(huán)節(jié)，美國站群服務(wù)器，即溫度。較高的溫度導(dǎo)致更多的人購買冰淇淋以及更多的人去游泳。因此，這個“潛變量”確實是表觀相關(guān)性的原因。幸運的是，我們已經(jīng)學(xué)會將因果關(guān)系與因果關(guān)系分開。而且，在炎熱的夏日，我們?nèi)匀豢梢韵硎鼙苛?，而不必?fù)?dān)心小兒麻痹癥爆發(fā)和鯊魚襲擊！

相關(guān)性的力量和局限性

有了足夠的數(shù)據(jù)，將會發(fā)現(xiàn)計算能力和統(tǒng)計算法的模式。但并不是所有的模式都有意義，因為虛假模式的數(shù)量很容易超過有意義的模式。將大數(shù)據(jù)與算法結(jié)合起來，如果能正確地應(yīng)用于解決問題，將是一個非常有用的工具。然而，沒有科學(xué)家會認(rèn)為你可以通過單獨處理數(shù)據(jù)來解決這個問題，無論統(tǒng)計分析是多么強(qiáng)大，您應(yīng)該始終基于對要解決的問題的基本理解來進(jìn)行分析。

數(shù)據(jù)科學(xué)是科學(xué)的終結(jié)嗎?

2008年6月，《連線》(Wired)雜志前主編C. Anderson寫了一篇頗具煽動性的文章，題為《理論的終結(jié):數(shù)據(jù)洪流使科學(xué)方法過時》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相關(guān)性取代因果關(guān)系，即使沒有連貫的模型和統(tǒng)一的理論，科學(xué)也能進(jìn)步。”

這種方法的強(qiáng)度和通用性依賴于數(shù)據(jù)量:數(shù)據(jù)越多，基于計算發(fā)現(xiàn)的相關(guān)性的方法就越強(qiáng)大和有效。我們可以簡單地把數(shù)字輸入計算機(jī)，讓統(tǒng)計算法自動發(fā)現(xiàn)有趣的模式和見解。

但是，這種簡化的分析方法也存在一些潛在的陷阱，可以通過John Poppelaars在博客上找到的示例很好地說明：

假設(shè)我們要為某些變量Y創(chuàng)建一個預(yù)測模型。例如公司的股價、在線廣告的點擊率或下周的天氣。接下來，我們收集所有可以使用的數(shù)據(jù)，并將其放入統(tǒng)計過程中，以找到Y(jié)的最佳預(yù)測模型。常見的過程是首先使用所有變量對模型進(jìn)行估計，篩選出不重要的變量，然后使用所選的變量子集重新估算模型，然后重復(fù)此過程，直到找到重要的模型為止。

但是，Anderson提出的分析方法存在一些嚴(yán)重的缺陷。我選擇了一個實例，從0到1的均勻分布中抽取100個樣本，為Y創(chuàng)建了一組數(shù)據(jù)點，所以它是隨機(jī)噪聲。接下來，我通過從0到1之間的均勻分布中抽取100個樣本，創(chuàng)建了一組50個解釋變量X(I)。因此，所有50個解釋變量也是隨機(jī)噪聲。我使用所有的X(I)變量來預(yù)測y，估計一個線性回歸模型。因為沒有任何相關(guān)的東西(所有的均布和自變量)，所以期望R²(0)，但實際上不是。結(jié)果是0。5。對于基于隨機(jī)噪聲的回歸來說還不錯!幸運的是，這個模型并不重要。逐步剔除不顯著的變量，重新估計模型。重復(fù)這個過程，云服務(wù)器租用，直到找到一個重要的模型。經(jīng)過幾個步驟后，發(fā)現(xiàn)一個顯著性模型，調(diào)整后的R平方為0.4,7個變量的顯著性水平至少為99%。再次，我們是在回歸隨機(jī)噪聲，它絕對沒有關(guān)系，但我們?nèi)匀徽业揭粋€有7個重要參數(shù)的顯著模型。如果我們只是將數(shù)據(jù)輸入統(tǒng)計算法來尋找模式，就會出現(xiàn)這種情況。

數(shù)據(jù)集越大，噪聲越強(qiáng)