中國IDC圈5月20日報道,數據挖掘是操功課務常識從數據中發明息爭釋常識(或稱為模式)的進程,這種常識是以自然可能人工形式締造的新常識。
當前的數據挖掘形式,是在20世紀90年月實踐規模降生的,是在集成數據挖掘算法平臺成長的支撐下適合貿易闡明的一種形式。也許是因為數據挖掘源于實踐而非 理論,在其進程的領略上不太引人留意。20世紀90年月晚期成長的CRISP-DM,逐漸成為數據挖掘進程的一種尺度化進程,被越來越多的數據挖掘實踐者樂成運用和遵循。
固然CRISP-DM可以或許指導如何實施數據挖掘,可是它不能表明數據挖掘是什么可能為什么適合這樣做。在本文中我將敘述我提出數據挖掘的九種準則或“定律”(個中大大都為實踐者所熟知)以及別的其它一些熟知的表明。開始從理論上(不只僅是描寫上)來表明數據挖掘進程。
我的目標不是評論CRISP-DM,但CRISP-DM的很多觀念對付領略數據挖掘是至關重要的,本文也將依賴于CRISP-DM的常見術語。CRISP-DM僅僅是闡述這個進程的開始。
第一,方針律:業務方針是所有數據辦理方案的源頭
它界說了數據挖掘的主題:數據挖掘存眷辦理業務業問題和實現業務方針。數據挖掘主要不是一種技能,而是一個進程,業務方針是它的的焦點。 沒有業務方針,沒有數據挖掘(不管這種表述是否清楚)。因此這個準則也可以說成:數據挖掘是業務進程。
第二,常識律:業務常識是數據挖掘進程每一步的焦點
這里界說了數據挖掘進程的一個要害特征。CRISP-DM的一種樸素的解讀是業務常識僅僅浸染于數據挖掘進程開始的方針的界說與最后的功效的實施,這將錯過數據挖掘進程的一個要害屬性,即業務常識是每一步的焦點。
為了利便領略,我利用CRISP-DM階段來說明:
貿易領略必需基于業務常識,所以數據挖掘方針必需是業務方針的映射(這種映射也基于數據常識和數據挖掘常識); 數據領略利用業務常識領略與業務問題相關的數據,以及它們是如何相關的; 數據預處理懲罰就是操功課務常識來塑造數據,使得業務問題可以被提出息爭答(更詳盡的第三條—籌備律); 建模是利用數據挖掘算法建設預測模子,同時表明模子和業務方針的特點,也就是說領略它們之間的業務相關性; 評估是模子對領略業務的影響; 實施是將數據挖掘功效浸染于業務進程
總之,沒有業務常識,數據挖掘進程的每一步都是無效的,也沒有“純粹的技能”步調。 業務常識指導進程發生有益的功效,并使得那些有益的功效獲得承認。數據挖掘是一個重復的進程,業務常識是它的焦點,驅動著功效的一連改進。
這背后的原因可以用“鴻溝的表示”(chasm of representation)來表明(Alan Montgomery在20世紀90年月對數據挖掘提出的一個概念)。Montgomery指出數據挖掘方針涉及到現實的業務,然而數據僅能暗示現實的一 部門;數據和現實世界是有差距(或“鴻溝”)的。在數據挖掘進程中,業務常識來補充這一差距,在數據中無論發明什么,只有利用業務常識表明才氣顯示其重要 性,數據中的任何漏掉必需通過業務常識補充。只有業務常識才氣補充這種缺失,這是業務常識為什么是數據挖掘進程每一步調的焦點的原因。
第三,籌備律:數據預處理懲罰比數據挖掘其他任何一個進程都重要
這是數據挖掘著名的格言,數據挖掘項目中最艱辛的事是數據獲取和預處理懲罰。非正式預計,其占用項目標時間為50%-80%。最簡樸的表明可以歸納綜合為“數據是困 難的”,常常回收自動化減輕這個“問題”的數據獲取、數據清理、數據轉換等數據預處理懲罰各部門的事情量。固然自動化技能是有益的,支持者相信這項技能可以減 少數據預處理懲罰進程中的大量的事情量,但這也是誤解數據預處理懲罰在數據挖掘進程中是必需的原因。
數據預處理懲罰的目標是把數據挖掘問題轉化為名目化的數據,使得闡明技能(如數據挖掘算法)更容易操作它。數據任何形式的變革(包羅清理、最大最小值轉換、增長 等)意味著問題空間的變革,因此這種闡明必需是摸索性的。 這是數據預處理懲罰重要的原因,而且在數據挖掘進程中占有如此大的事情量,這樣數據挖掘者可以從容 地哄騙問題空間,使得容易找到適合闡明他們的要領。
有兩種要領“塑造”這個問題 空間。第一種要領是將數據轉化為可以闡明的完全名目化的數據,好比,大大都數據挖掘算法需要單一表格形式的數據,一個記錄就是一個樣例。數據挖掘者都知道 什么樣的算法需要什么樣的數據形式,因此可以將數據轉化為一個符合的名目。第二種要領是使得數據可以或許含有業務問題的更多的信息,譬喻,某些規模的一些數據 挖掘問題,數據挖掘者可以通過業務常識和數據常識知道這些。 通過這些規模的常識,數據挖掘者通過哄騙問題空間大概更容易找到一個符合的技能辦理方案。
因此,通過業務常識、數據常識、數據挖掘常識從基礎上使得數據預處理懲罰越發駕輕就熟。 數據預處理懲罰的這些方面并不能通過簡樸的自動化實現。