0.缺乏數據(LackData)
對付分類問題或預估問題來說,經常缺乏精確標注的案例。
譬喻:
欺騙財偵測(FraudDetection):在上百萬的生意業務中,大概只有屈指可數的欺騙財生意業務,尚有許多的欺騙財生意業務沒有被正確標注出來,這就需要在建模前耗費大量人力來批改。
信用評分(CreditScoring):需要對潛在的高風險客戶舉辦恒久跟蹤(好比兩年),從而積聚足夠的評分樣本。
1.太存眷練習(FocusonTraining)
IDMer:就象體育練習中越來越注重實戰練習,因為純真的關閉式練習經常會練習時狀態神勇,角逐時一塌糊涂。
實際上,只有樣本外數據上的模子評分功效才真正有用!(不然的話,直接用參照表好了!)
癌癥檢測(Cancerdetection):MDAnderson的大夫和研究人員(1993)利用神經網絡來舉辦癌癥檢測,詫異地發明,練習時間越長(從幾天耽誤至數周),對練習集的機能改進很是輕微,但在測試集上的機能卻明明下降。
呆板進修或計較機科學研究者經常試圖讓模子在已知數據上表示最優,這樣做的功效凡是會導致太過擬合(overfit)。
辦理要領:
辦理這個問題的典范要領是重抽樣(Re-Sampling)。重抽樣技能包羅:bootstrap、cross-validation、jackknife、leave-one-out…等等。
2.只依賴一項技能(RelyonOneTechnique)
IDMer:這個錯誤和第10種錯誤有相通之處,請同時參照其辦理要領。沒有比擬也就沒有所謂的優劣,辯證法的思想在此浮現無遺。
“當小孩子手拿一把錘子時,整個世界看起來就是一枚釘子。”要想讓事情精細絕倫,就需要一套完整的東西箱。
不要簡樸地信賴你用單個要領闡明的功效,至少要和傳統要領(好比線性回歸或線性鑒別闡明)做個較量。
研究功效:憑據《神經網絡》期刊的統計,在已往3年來,只有1/6的文章中做到了上述兩點。也就是說,在獨立于練習樣本之外的測試集長舉辦了開集測試,并與其它遍及回收的要領舉辦了比擬。
利用一系列好的東西和要領。(每種東西或要領大概最多帶來5%~10%的改造)。
3.提錯了問題(AsktheWrongQuestion)
IDMer:一般在分類算法中城市給出分類精度作為權衡模子優劣的尺度,但在實際項目中我們卻險些不看這個指標。為什么?因為那不是我們存眷的方針。
a)項目標方針:必然要鎖定正確的方針
欺騙財偵測(存眷的是正例!)(Shannon嘗試室在國際遠程電話上的闡明):不要試圖在一般的通話中把欺騙財和非欺騙財行為分類出來,重點應放在如何描寫正常通話的特征,然后據此發明異常通話行為。
b)模子的方針:讓計較機去做你但愿它做的事
大大都研究人員會著迷于模子的收斂性來只管低落誤差,這樣讓他們可以得到數學上的美感。但更應該讓計較機做的工作應該是如何改進業務,而不是僅僅偏重模子計較上的精度。
4.只靠數據來措辭(Listen(only)totheData)
IDMer:“讓數據措辭”沒有錯,要害是還要記得另一句話:兼聽則明,偏聽則暗!假如數據+東西就可以辦理問題的話,還要人做什么呢?
4a.腳踏兩船的數據:數據自己只能輔佐闡明人員找到什么是顯著的功效,但它并不能匯報你功效是對照舊錯。
4b.顛末設計的嘗試:某些嘗試設計中摻雜了工錢的身分,這樣的嘗試功效也經常不行信。
5.利用了將來的信息(AcceptLeaksfromtheFuture)
IDMer:看似不行能,卻是實際中很容易犯的錯誤,出格是你面臨成千上萬個變量的時候。當真、仔細、有層次是數據挖掘人員的根基要求。
預報(Forecast)示例:預報芝加哥銀行在某天的利率,利用神經網絡建模,模子的精確率到達95%。但在模子中卻利用了該天的利率作為輸入變量。
金融業中的預報示例:利用3日的移動平均來預報,但卻把移動平均的中點設在本日。
要仔細查察那些讓功效表示得異常好的變量,這些變量有大概是不該該利用,可能不該該直接利用的。
給數據加上時間戳,制止被誤用。
6.丟棄了不應忽略的案例(DiscountPeskyCases)
IDMer:到底是“寧為雞頭,不為鳳尾”,照舊“大隱隱于市,小隱隱于野”?差異的人生立場可以有同樣出色的人生,差異的數據也大概蘊含同樣重要的代價。
異常值大概會導致錯誤的功效(好比價值中的小數點標錯了),但也大概是問題的謎底(好比臭氧洞)。所以需要仔細查抄這些異常。
研究中最讓感動的話語不是“啊哈!”,而是“這就有點奇怪了……”
數據中的紛歧致性有大概會是辦理問題的線索,深挖下去也許可以辦理一個大的業務問題。
在直郵營銷中,在對家庭地點的歸并和清洗進程中發明的數據紛歧致,反而大概是新的營銷時機。
可視化可以輔佐你闡明大量的假設是否創立。
7.輕信預測(Extrapolate)
IDMer:依然是辯證法中的概念,事物都是不絕成長變革的。
人們經常在履歷不多的時候等閑得出一些結論。
即便發明白一些反例,人們也不太愿意放棄原先的想法。
維度咒語:在低維度上的直覺,放在高維度空間中,經常是毫無意義的。
進化論。沒有正確的結論,只有越來越精確的結論。
8.試圖答復所有問題(AnswerEveryInquiry)
IDMer:有點像我登山時勉勵本身的一句話“我不知道什么時候能登上山峰,但我知道爬一步就離終點近一步。”
“不知道”是一種有意義的模子功效。
模子也許無法100%精確答復問題,但至少可以幫我們預計呈現某種功效的大概性。
9.隨便地舉辦抽樣(SampleCasually)