中國(guó)IDC圈5月20日?qǐng)?bào)道,貿(mào)易規(guī)模的數(shù)據(jù)科學(xué)家和偵探雷同:去摸索未知的事物。不外,當(dāng)他們?cè)谶@個(gè)路程中冒險(xiǎn)的時(shí)候,他們很容易落入陷阱。所以要大白,這些錯(cuò)誤是如何造成的,以及如何制止。
“錯(cuò)誤是發(fā)明的進(jìn)口。”——James Joyce (著名的愛(ài)爾蘭小說(shuō)家)。
這在大大都環(huán)境下是正確的,可是對(duì)付數(shù)據(jù)科學(xué)家而言,出錯(cuò)誤可以或許輔佐他們發(fā)明新的數(shù)據(jù)成長(zhǎng)趨勢(shì)和找到數(shù)據(jù)的更多模式。說(shuō)到這兒,有一點(diǎn)很重要:要大白數(shù)據(jù)科學(xué)家有一個(gè)很是邊沿的錯(cuò)誤。數(shù)據(jù)科學(xué)家是顛末大量考查后才被任命的,任命本錢(qián)很高。組織是不能遭受和忽視數(shù)據(jù)科學(xué)家欠好的數(shù)據(jù)實(shí)踐和反復(fù)錯(cuò)誤的本錢(qián)的。數(shù)據(jù)科學(xué)的錯(cuò)誤和欠好的數(shù)據(jù)實(shí)踐會(huì)揮霍數(shù)據(jù)科學(xué)家的職業(yè)生涯。數(shù)據(jù)科學(xué)家追蹤所有嘗試數(shù)據(jù)是至關(guān)重要的,從錯(cuò)誤中吸取教導(dǎo),制止在將來(lái)數(shù)據(jù)科學(xué)項(xiàng)目中出錯(cuò)。
福爾摩斯有一句名言是如何界說(shuō)偵探的,而數(shù)據(jù)科學(xué)家在貿(mào)易中的腳色就雷同偵探。
“我是福爾摩斯,我的事情就是發(fā)明別人不知道的。”
企業(yè)要想保持競(jìng)爭(zhēng)力,它必需比大數(shù)據(jù)闡明做的更多。不去評(píng)估他們手中的數(shù)據(jù)質(zhì)量,他們想要的功效,他們估量從這種數(shù)據(jù)闡明中得到幾多利潤(rùn), 這將很難正確地找出哪些數(shù)據(jù)科學(xué)項(xiàng)目可以或許盈利,哪些不能。當(dāng)產(chǎn)生數(shù)據(jù)科學(xué)錯(cuò)誤時(shí)——一次是可以接管的——思量到有一個(gè)進(jìn)修曲線,可是假如這些錯(cuò)誤產(chǎn)生在兩次以上,這會(huì)增加企業(yè)本錢(qián)。
在Python中進(jìn)修數(shù)據(jù)科學(xué),成為企業(yè)數(shù)據(jù)科學(xué)家。
制止常見(jiàn)的數(shù)據(jù)科學(xué)錯(cuò)誤:
1、相關(guān)干系和因果干系之間的雜亂
對(duì)付每個(gè)數(shù)據(jù)科學(xué)家來(lái)說(shuō),相關(guān)性和因果干系的錯(cuò)誤會(huì)導(dǎo)致成才干件,最好的例子是《妖怪經(jīng)濟(jì)學(xué)》的闡明,關(guān)于因果干系的相關(guān)性錯(cuò)誤,導(dǎo)致伊利諾斯州給本州的學(xué)生發(fā)書(shū),因?yàn)榘凑贞U明昭示家里有書(shū)的學(xué)生在學(xué)校能直接考的更高分。進(jìn)一步闡明昭示,在家里有幾本書(shū)的學(xué)生在學(xué)業(yè)上能表示的更好,縱然他們從來(lái)沒(méi)有讀過(guò)這些書(shū)。
這改變了之前的假設(shè)和洞察:怙恃凡是買(mǎi)書(shū)的家庭,能營(yíng)造愉快的進(jìn)修情況。
大部門(mén)的數(shù)據(jù)科學(xué)家在處理懲罰大數(shù)據(jù)時(shí)假設(shè)相關(guān)干系直接影響因果干系。利用大數(shù)據(jù)來(lái)領(lǐng)略?xún)蓚€(gè)變量之間的相關(guān)性凡是是一個(gè)很好的實(shí)踐要領(lǐng),可是,老是利用 “因果”類(lèi)比大概導(dǎo)致虛假的預(yù)測(cè)和無(wú)效的抉擇。要想實(shí)現(xiàn)操作大數(shù)據(jù)的最好結(jié)果,數(shù)據(jù)科學(xué)家必需領(lǐng)略相關(guān)干系和來(lái)源的區(qū)別。關(guān)聯(lián)往往是指同時(shí)調(diào)查X和Y的變革,而因果干系意味著X導(dǎo)致Y。在數(shù)據(jù)科學(xué),這是兩個(gè)完全差異的工作,可是許大都據(jù)科學(xué)家往往忽視了它們的區(qū)別。基于相關(guān)性的抉擇大概足以采納動(dòng)作,我們不需要知道原因,但這照舊完全依賴(lài)于數(shù)據(jù)的范例和要辦理的問(wèn)題。
每位數(shù)據(jù)科學(xué)家都必需分明——“數(shù)據(jù)科學(xué)中相關(guān)干系不是因果干系”。假如兩個(gè)干系呈現(xiàn)相相互關(guān)的環(huán)境,也不料味著是一個(gè)導(dǎo)致了另一個(gè)的發(fā)生。
2、沒(méi)有選擇符合的可視化東西
大部門(mén)的數(shù)據(jù)科學(xué)家專(zhuān)心進(jìn)修于闡明的技能方面。他們不能通過(guò)利用差異的可視化技能領(lǐng)略數(shù)據(jù),即那些可以令他們更快得到洞察力的技能。假如數(shù)據(jù)科學(xué)家不能選擇符合的可視化成長(zhǎng)模子,監(jiān)控摸索性數(shù)據(jù)闡明和暗示功效,那么縱然是最好的呆板進(jìn)修模子,它的代價(jià)也會(huì)被稀釋。事實(shí)上,許大都據(jù)科學(xué)家按照他們的審美選擇圖表范例,而不是思量數(shù)據(jù)集的特征。這個(gè)可以通過(guò)界說(shuō)可視化的方針制止。
縱然數(shù)據(jù)科學(xué)家開(kāi)拓了一個(gè)最優(yōu)秀和最好的呆板進(jìn)修模子,它也不會(huì)大呼說(shuō)“尤里卡”——所有這些所需要的是功效的有效可視化,可以領(lǐng)略數(shù)據(jù)模式的差異,和意識(shí)到它的存在可以被操作來(lái)得到貿(mào)易成就。常言道“一張圖片勝過(guò)1000個(gè)單詞。”——數(shù)據(jù)科學(xué)家不只要熟悉本身常用的數(shù)據(jù)可視化東西,也要領(lǐng)略數(shù)據(jù)有效可視化的道理,用令人信服的方法得到功效。
辦理任何數(shù)據(jù)科學(xué)問(wèn)題的至關(guān)重要一步,就是要得到該數(shù)據(jù)是關(guān)于什么的洞察力,通過(guò)富厚的可視化表達(dá),可以形成闡明基本和成立相應(yīng)模子。
3、沒(méi)有選擇適當(dāng)?shù)哪W?驗(yàn)證周期
科學(xué)家認(rèn)為,成立了一個(gè)樂(lè)成的呆板進(jìn)修模子,就是得到了最洪流平的樂(lè)成。可是,這只是樂(lè)成了一半,它必需要確保模子的預(yù)測(cè)發(fā)揮浸染。許大都據(jù)科學(xué)家常常健忘可能傾向性的忽視這樣的事實(shí),就是他們的數(shù)據(jù)必需在指定的時(shí)距離斷舉辦重復(fù)驗(yàn)證。一些數(shù)據(jù)科學(xué)家常常犯的一個(gè)普遍性錯(cuò)誤:假如和調(diào)查到的數(shù)據(jù)吻合,就認(rèn)為預(yù)測(cè)模子是抱負(fù)的。已成立的模子的預(yù)測(cè)結(jié)果可以因?yàn)槟W拥母上翟诓唤^變革而瞬間消失。為了制止這種環(huán)境,數(shù)據(jù)科學(xué)家最好的辦理方法就是每個(gè)小時(shí)都對(duì)含有新數(shù)據(jù)的數(shù)據(jù)模子舉辦評(píng)分,可能基于模子的干系變革快慢每日逐月評(píng)分。