首先,我將定義什么是統(tǒng)計(jì)學(xué)習(xí)。然后,我們將深入研究統(tǒng)計(jì)學(xué)習(xí)中的關(guān)鍵概念。
什么是統(tǒng)計(jì)學(xué)習(xí)?
根據(jù)維基百科,統(tǒng)計(jì)學(xué)習(xí)理論是從統(tǒng)計(jì)學(xué)和功能分析領(lǐng)域中提取的機(jī)器學(xué)習(xí)的框架。
機(jī)器學(xué)習(xí)是通過(guò)軟件應(yīng)用程序?qū)崿F(xiàn)的統(tǒng)計(jì)學(xué)習(xí)技術(shù)的表現(xiàn)。
這在實(shí)踐中意味著什么?統(tǒng)計(jì)學(xué)習(xí)是指能夠使我們更好地理解數(shù)據(jù)的工具和技術(shù)。理解數(shù)據(jù)是什么意思?
在統(tǒng)計(jì)學(xué)習(xí)的背景下,有兩種類型的數(shù)據(jù):
可以直接控制的數(shù)據(jù)被稱為自變量。 無(wú)法直接控制的數(shù)據(jù)被稱為因變量。 無(wú)法控制的數(shù)據(jù),即因變量需要預(yù)測(cè)或估計(jì)。
更好地理解數(shù)據(jù)是根據(jù)自變量來(lái)表示因變量。讓我用一個(gè)例子來(lái)說(shuō)明它:
假設(shè)我想根據(jù)我為電視,廣播和打印分配的廣告預(yù)算來(lái)衡量銷售額。我可以控制可以分配給電視,廣播和打印的預(yù)算。我無(wú)法控制的是它們將如何影響銷售。我想用我無(wú)法控制的數(shù)據(jù)(銷售)作為我可以控制的數(shù)據(jù)(廣告預(yù)算)的函數(shù)。
統(tǒng)計(jì)學(xué)習(xí)揭示隱藏的數(shù)據(jù)關(guān)系。依賴數(shù)據(jù)和獨(dú)立數(shù)據(jù)之間的關(guān)系。
參數(shù)和模型
運(yùn)營(yíng)管理中著名的商業(yè)模式之一是ITO模型。它代表輸入 - 轉(zhuǎn)換 - 輸出模型。這些輸入經(jīng)歷了一些轉(zhuǎn)換創(chuàng)建一個(gè)輸出。
統(tǒng)計(jì)學(xué)習(xí)也應(yīng)用了類似的概念。有輸入數(shù)據(jù),輸入數(shù)據(jù)被轉(zhuǎn)換,亞洲服務(wù)器,生成輸出(需要預(yù)測(cè)或估計(jì)的數(shù)據(jù))。
轉(zhuǎn)換引擎稱為模型。這些是估算輸出的函數(shù)。
這個(gè)轉(zhuǎn)換是數(shù)學(xué)上的。將數(shù)學(xué)成分添加到輸入數(shù)據(jù)中以估計(jì)輸出。這些成分稱為參數(shù)。
讓我們來(lái)看一個(gè)例子:
是什么決定了一個(gè)人的收入?收入是由一個(gè)人的教育和多年的經(jīng)驗(yàn)決定的。估計(jì)收入的模型可以是這樣的:收入= c +β0*教育+β1*經(jīng)驗(yàn)
β0和β1是表示收入與教育和經(jīng)驗(yàn)相關(guān)的參數(shù)。
教育和經(jīng)驗(yàn)是可控的變量。這些可控變量具有不同的同義詞。它們被稱為自變量。它們也被稱為特征。
收入是無(wú)法控制的變量。它們被稱為目標(biāo)。
訓(xùn)練和測(cè)試
當(dāng)我們準(zhǔn)備考試時(shí),我們?cè)撛趺崔k?研究,學(xué)習(xí),接受,做筆記,練習(xí),模擬測(cè)試。這些是學(xué)習(xí)和準(zhǔn)備未知測(cè)試的工具。
機(jī)器學(xué)習(xí)也使用類似的學(xué)習(xí)概念。數(shù)據(jù)是有限的,可用的數(shù)據(jù)需要謹(jǐn)慎使用。構(gòu)建的模型需要進(jìn)行驗(yàn)證。驗(yàn)證它的方法如下:
將數(shù)據(jù)拆分為兩部分。
一部分進(jìn)行訓(xùn)練。讓模型從中學(xué)習(xí),讓模型使用數(shù)據(jù)。此數(shù)據(jù)集稱為訓(xùn)練數(shù)據(jù)。 另一部分進(jìn)行測(cè)試。使用未知的數(shù)據(jù)對(duì)模型進(jìn)行“測(cè)試”。此數(shù)據(jù)集稱為測(cè)試數(shù)據(jù)。
在競(jìng)爭(zhēng)性考試中,如果準(zhǔn)備充分,學(xué)習(xí)合理,那么最后的考試成績(jī)也會(huì)令人滿意。類似地,在機(jī)器學(xué)習(xí)中,如果模型從訓(xùn)練數(shù)據(jù)中很好地學(xué)習(xí),則它將在測(cè)試數(shù)據(jù)上表現(xiàn)良好。
類似地,在機(jī)器學(xué)習(xí)中,一旦在測(cè)試數(shù)據(jù)集上測(cè)試了模型,就會(huì)評(píng)估模型的性能。它是根據(jù)估計(jì)的輸出與實(shí)際值的接近程度來(lái)評(píng)估的。
方差和偏差
英國(guó)著名統(tǒng)計(jì)學(xué)家喬治·博克斯曾引用過(guò):
“All models are wrong, but some are useful。“
沒(méi)有一個(gè)模型是100%準(zhǔn)確的。所有模型都是有誤差的。這些誤差來(lái)自兩個(gè)來(lái)源:
偏差 方差
讓我試著用類比來(lái)解釋這個(gè)。
一個(gè)7歲的孩子,剛剛學(xué)習(xí)了乘法的概念。他已經(jīng)掌握了1和2的法則。他的下一個(gè)挑戰(zhàn)是學(xué)習(xí)3的法則。他非常興奮并開(kāi)始練習(xí)3的乘法表。他的表是這樣的:
3 x 1 = 4 3 x 2 = 7 3 x 3 = 10 3 x 4 = 13 3 x 5 = 16
他的同學(xué)和他一樣,但是他的表看起來(lái)是這樣的:
3 x 1 = 5 3 x 2 = 9 3 x 3 = 18 3 x 4 = 24 3 x 5 = 30
讓我們從機(jī)器學(xué)習(xí)的角度來(lái)研究?jī)蓚€(gè)學(xué)生創(chuàng)建的乘法模型。(我們將兩個(gè)孩子認(rèn)定為A,B)
A的模型有一個(gè)無(wú)效的假設(shè)。它假設(shè)乘法運(yùn)算意味著在結(jié)果之后添加一個(gè)1。該假設(shè)引入了偏置誤差。假設(shè)是一致的,即在輸出中加1。這意味著A的模型具有較低的偏差。 A的模型導(dǎo)致輸出始終與實(shí)際相差1個(gè)數(shù)。這意味著他的模型具有低方差。 B的模型輸出沒(méi)有邏輯。他的模型輸出與實(shí)際值有很大差異。偏差沒(méi)有一致的模式。B的模型具有高偏差和高方差。
上面的例子粗略地解釋了方差和偏差的重要概念。