欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

大數(shù)據(jù)技術(shù)

做好數(shù)據(jù)挖掘模子的9條履歷總結(jié)

中國IDC圈5月20日報道,數(shù)據(jù)挖掘是操功課務(wù)常識從數(shù)據(jù)中發(fā)明息爭釋常識(或稱為模式)的進(jìn)程,這種常識是以自然可能人工形式締造的新常識。

做好數(shù)據(jù)挖掘模子的9條履歷總結(jié)

當(dāng)前的數(shù)據(jù)挖掘形式,是在20世紀(jì)90年月實踐規(guī)模降生的,是在集成數(shù)據(jù)挖掘算法平臺成長的支撐下適合貿(mào)易闡明的一種形式。也許是因為數(shù)據(jù)挖掘源于實踐而非 理論,在其進(jìn)程的領(lǐng)略上不太引人留意。20世紀(jì)90年月晚期成長的CRISP-DM,逐漸成為數(shù)據(jù)挖掘進(jìn)程的一種尺度化進(jìn)程,被越來越多的數(shù)據(jù)挖掘?qū)嵺`者樂成運用和遵循。

固然CRISP-DM可以或許指導(dǎo)如何實施數(shù)據(jù)挖掘,可是它不能表明數(shù)據(jù)挖掘是什么可能為什么適合這樣做。在本文中我將敘述我提出數(shù)據(jù)挖掘的九種準(zhǔn)則或“定律”(個中大大都為實踐者所熟知)以及別的其它一些熟知的表明。開始從理論上(不只僅是描寫上)來表明數(shù)據(jù)挖掘進(jìn)程。

我的目標(biāo)不是評論CRISP-DM,但CRISP-DM的很多觀念對付領(lǐng)略數(shù)據(jù)挖掘是至關(guān)重要的,本文也將依賴于CRISP-DM的常見術(shù)語。CRISP-DM僅僅是闡述這個進(jìn)程的開始。

第一,方針律:業(yè)務(wù)方針是所有數(shù)據(jù)辦理方案的源頭

它界說了數(shù)據(jù)挖掘的主題:數(shù)據(jù)挖掘存眷辦理業(yè)務(wù)業(yè)問題和實現(xiàn)業(yè)務(wù)方針。數(shù)據(jù)挖掘主要不是一種技能,而是一個進(jìn)程,業(yè)務(wù)方針是它的的焦點。 沒有業(yè)務(wù)方針,沒有數(shù)據(jù)挖掘(不管這種表述是否清楚)。因此這個準(zhǔn)則也可以說成:數(shù)據(jù)挖掘是業(yè)務(wù)進(jìn)程。

第二,常識律:業(yè)務(wù)常識是數(shù)據(jù)挖掘進(jìn)程每一步的焦點

這里界說了數(shù)據(jù)挖掘進(jìn)程的一個要害特征。CRISP-DM的一種樸素的解讀是業(yè)務(wù)常識僅僅浸染于數(shù)據(jù)挖掘進(jìn)程開始的方針的界說與最后的功效的實施,這將錯過數(shù)據(jù)挖掘進(jìn)程的一個要害屬性,即業(yè)務(wù)常識是每一步的焦點。

為了利便領(lǐng)略,我利用CRISP-DM階段來說明:

貿(mào)易領(lǐng)略必需基于業(yè)務(wù)常識,所以數(shù)據(jù)挖掘方針必需是業(yè)務(wù)方針的映射(這種映射也基于數(shù)據(jù)常識和數(shù)據(jù)挖掘常識); 數(shù)據(jù)領(lǐng)略利用業(yè)務(wù)常識領(lǐng)略與業(yè)務(wù)問題相關(guān)的數(shù)據(jù),以及它們是如何相關(guān)的; 數(shù)據(jù)預(yù)處理懲罰就是操功課務(wù)常識來塑造數(shù)據(jù),使得業(yè)務(wù)問題可以被提出息爭答(更詳盡的第三條—籌備律); 建模是利用數(shù)據(jù)挖掘算法建設(shè)預(yù)測模子,同時表明模子和業(yè)務(wù)方針的特點,也就是說領(lǐng)略它們之間的業(yè)務(wù)相關(guān)性; 評估是模子對領(lǐng)略業(yè)務(wù)的影響; 實施是將數(shù)據(jù)挖掘功效浸染于業(yè)務(wù)進(jìn)程

總之,沒有業(yè)務(wù)常識,數(shù)據(jù)挖掘進(jìn)程的每一步都是無效的,也沒有“純粹的技能”步調(diào)。 業(yè)務(wù)常識指導(dǎo)進(jìn)程發(fā)生有益的功效,并使得那些有益的功效獲得承認(rèn)。數(shù)據(jù)挖掘是一個重復(fù)的進(jìn)程,業(yè)務(wù)常識是它的焦點,驅(qū)動著功效的一連改進(jìn)。

這背后的原因可以用“鴻溝的表示”(chasm of representation)來表明(Alan Montgomery在20世紀(jì)90年月對數(shù)據(jù)挖掘提出的一個概念)。Montgomery指出數(shù)據(jù)挖掘方針涉及到現(xiàn)實的業(yè)務(wù),然而數(shù)據(jù)僅能暗示現(xiàn)實的一 部門;數(shù)據(jù)和現(xiàn)實世界是有差距(或“鴻溝”)的。在數(shù)據(jù)挖掘進(jìn)程中,業(yè)務(wù)常識來補充這一差距,在數(shù)據(jù)中無論發(fā)明什么,只有利用業(yè)務(wù)常識表明才氣顯示其重要 性,數(shù)據(jù)中的任何漏掉必需通過業(yè)務(wù)常識補充。只有業(yè)務(wù)常識才氣補充這種缺失,這是業(yè)務(wù)常識為什么是數(shù)據(jù)挖掘進(jìn)程每一步調(diào)的焦點的原因。

第三,籌備律:數(shù)據(jù)預(yù)處理懲罰比數(shù)據(jù)挖掘其他任何一個進(jìn)程都重要

這是數(shù)據(jù)挖掘著名的格言,數(shù)據(jù)挖掘項目中最艱辛的事是數(shù)據(jù)獲取和預(yù)處理懲罰。非正式預(yù)計,其占用項目標(biāo)時間為50%-80%。最簡樸的表明可以歸納綜合為“數(shù)據(jù)是困 難的”,常常回收自動化減輕這個“問題”的數(shù)據(jù)獲取、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)預(yù)處理懲罰各部門的事情量。固然自動化技能是有益的,支持者相信這項技能可以減 少數(shù)據(jù)預(yù)處理懲罰進(jìn)程中的大量的事情量,但這也是誤解數(shù)據(jù)預(yù)處理懲罰在數(shù)據(jù)挖掘進(jìn)程中是必需的原因。

數(shù)據(jù)預(yù)處理懲罰的目標(biāo)是把數(shù)據(jù)挖掘問題轉(zhuǎn)化為名目化的數(shù)據(jù),使得闡明技能(如數(shù)據(jù)挖掘算法)更容易操作它。數(shù)據(jù)任何形式的變革(包羅清理、最大最小值轉(zhuǎn)換、增長 等)意味著問題空間的變革,因此這種闡明必需是摸索性的。 這是數(shù)據(jù)預(yù)處理懲罰重要的原因,而且在數(shù)據(jù)挖掘進(jìn)程中占有如此大的事情量,這樣數(shù)據(jù)挖掘者可以從容 地哄騙問題空間,使得容易找到適合闡明他們的要領(lǐng)。

有兩種要領(lǐng)“塑造”這個問題 空間。第一種要領(lǐng)是將數(shù)據(jù)轉(zhuǎn)化為可以闡明的完全名目化的數(shù)據(jù),好比,大大都數(shù)據(jù)挖掘算法需要單一表格形式的數(shù)據(jù),一個記錄就是一個樣例。數(shù)據(jù)挖掘者都知道 什么樣的算法需要什么樣的數(shù)據(jù)形式,因此可以將數(shù)據(jù)轉(zhuǎn)化為一個符合的名目。第二種要領(lǐng)是使得數(shù)據(jù)可以或許含有業(yè)務(wù)問題的更多的信息,譬喻,某些規(guī)模的一些數(shù)據(jù) 挖掘問題,數(shù)據(jù)挖掘者可以通過業(yè)務(wù)常識和數(shù)據(jù)常識知道這些。 通過這些規(guī)模的常識,數(shù)據(jù)挖掘者通過哄騙問題空間大概更容易找到一個符合的技能辦理方案。

因此,通過業(yè)務(wù)常識、數(shù)據(jù)常識、數(shù)據(jù)挖掘常識從基礎(chǔ)上使得數(shù)據(jù)預(yù)處理懲罰越發(fā)駕輕就熟。 數(shù)據(jù)預(yù)處理懲罰的這些方面并不能通過簡樸的自動化實現(xiàn)。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務(wù)器租用 夢飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 元谋县| 岐山县| 斗六市| 来安县| 新宁县| 潍坊市| 政和县| 虹口区| 城步| 玉屏| 枣阳市| 克什克腾旗| 房山区| 渑池县| 运城市| 汉川市| 芮城县| 南宁市| 青龙| 盖州市| 惠来县| 嘉黎县| 星座| 玉山县| 通山县| 龙陵县| 高尔夫| 惠水县| 玉树县| 阿合奇县| 陈巴尔虎旗| 黄冈市| 高要市| 永定县| 锡林郭勒盟| 汉中市| 长岛县| 鲜城| 无为县| 崇文区| 上杭县|