對于身處大數據時代的我們來說,統計學越來走近我們,當我們在思考一個問題時,要盡量避免因為自己的無知,提出一些低級的問題來。譬如一些極其低級的,不符合統計學常識的錯誤。具體有哪些錯誤,后面我會提到。如果提問者懂一些統計學的常識,很多問題根本就不應該被提出來。要避免犯蠢,提出合理的科學的問題,就應該懂一些基本的統計常識。以下內容,學過數學/統計學/計量經濟學的同學,應該知道我在說什么。如果你不知道,那請你回去面壁思過一下。
樣本偏差
人們習慣通過很少的觀察值,就得出結論。這樣的結論,往往就存在樣本不足導致的偏差。
比如,你說吸煙有害健康,勸身邊人戒煙。煙民們常用的借口是這樣的:
你看隔壁王大爺,都九十歲了,抽煙抽了一輩子,照樣健健康康的。張二蛋,煙酒不沾,三十歲就歸了西。所以呀,抽煙有害健康,都是扯淡騙人的!
比如,有人跟蹤過每年的高考狀元后來的職業發展路徑,最終發現這些狀元,絕大多數并沒有成為人中龍鳳,國之棟梁,于是他們得出結論:
高考狀元最終將走向平庸,高考對篩選人才并沒什么卵用!
再比如,幾個清北畢業的人,上知乎回答了個問題,說自己清北畢業,也買不起學區房,甚至也在北京留不下來,于是就有人得出結論:
清北的學歷不如學區房值錢!
以上的例子,統統犯了小樣本偏差的統計錯誤。換句話說,考察的樣本太少,根本不可能得出可靠的結論。
看吸煙是否有害健康,應該看的是整個煙民群體和非煙民群體的比較,光一個王大爺和張二蛋怎么能得出結論。
高考狀元的容量加起來不過幾百人,但非狀元人數上千萬,幾千萬人當中出現馬云馬化騰,當然更正常。
說清北畢業買不起房的,也只是發聲的少數人,而那些悶聲發大財的清北人,看到這樣的結論,恐怕只會默默地罵一句SB。
說到樣本偏差,就必須提到有名的「紅球實驗」。
假設有兩個盒子:A和B.
A盒:2/3的紅球,1/3的藍球。
B盒:2/3的藍球,1/3的紅球。
現在我們把兩個盒子遮起來,從中隨機抽取小球出來。換句話說,這個時候,你不知道哪個是A哪個是B,只知道盒子1和盒子2。
我們從盒子1當中抽取了4個紅球和1個藍球,一共5個。從盒子2當中,抽取了20個紅球,10個藍球,一共30個。也即是:
盒子1:4個紅球,1個藍球,共5個。
盒子2:20個紅球,10個藍球,共30個。
現在問,哪個盒子更有可能是A盒,是1還是2?
多數人的答案是1。因為1當中紅球的概率是80%,而2當中只有67%。A盒當中的紅球概率更高,所以1是A盒。
學過概率論的同學應該馬上反應出來,這是一個典型的條件概率問題,用貝葉斯公式可以很容易計算:
P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.
P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.
看不懂公式的同學可以略過,你需要記住一點即可:
統計推斷,樣本量越大,越可靠。基于小樣本的結論,往往都存在問題。
以后不要再很蠢地說,你看,名校畢業的
但答案恰恰相反,盒子2才更有可能是A盒。因為在更多的樣本量下,它保證了紅球的概率遠高于藍球。
也在北京買不起房,所以學歷沒什么卵用。
相關性
混淆相關和因果,不能建立多元相關思維模型,簡直是人們犯蠢的重災區!
因果的意思是,A的發生必然會導致B,B的發生必然以A的發生為前提。相關則不一定,僅僅可能是A,B同時發生了。
比如暴飲暴食導致胃痛,就是一種因果關系。吃太多胃承受不了,必然會痛。胃之所以會痛,就是因為你吃了太多東西進去(控制其他變量的前提下)。
但名校畢業和賺很多錢,這就不是因果關系。這只是一種相關關系,而且是一種多元的相關關系。
換句話說,賺錢這個事實,不僅和學校學歷相關,還和很多其他因素相關,比如長相、行業、冒險精神等等。
現在明白我為什么說上面那些問題很蠢了吧。誰告訴你清北畢業就一定可以去投行?同理,誰告訴你,哈佛的學生就一定比咪蒙賺錢賺得多?
清北畢業和去投行,只是相關性,且只是相關因子當中的一個,同理,哈佛畢業和賺錢多,也是這個道理。
如果把一個結果稱為Y,諸多和它相關的因素稱為X,那么Y和X的關系應該是:Y=AX.
其中A=[a0,a1,a2...an], X=[x0,x1,x2…xn]’
以上是一個最基本的多元相關模型。比如,賺錢是Y,那它對應的X,包括了學歷、起始資本(家庭背景)、努力程度、長相,等等。
如果以多元相關模型來思考問題,根本就不可能提出為什么一個哈佛的還不如咪蒙賺得多這種愚蠢的問題。