欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

大數(shù)據(jù)應(yīng)用

數(shù)據(jù)融合:大數(shù)據(jù)闡明的瓶頸

中國(guó)IDC圈3月23日?qǐng)?bào)道:操作互聯(lián)網(wǎng)購(gòu)物的營(yíng)銷數(shù)據(jù)來追蹤和勾畫消費(fèi)行為并以此為據(jù)促銷是大數(shù)據(jù)應(yīng)用的樂成典范案例。有些人已此將大數(shù)據(jù)吹得神乎其神,仿佛它能成為萬能藥。其實(shí),這只是大數(shù)據(jù)應(yīng)用中的很小一部門。作為智能決定的支持手段之一,大數(shù)據(jù)在企業(yè)、事業(yè)、當(dāng)局、社會(huì)打點(diǎn)和成長(zhǎng)上的應(yīng)用是更重要的挑戰(zhàn)。在這里,多源數(shù)據(jù)的融合就成為大數(shù)據(jù)闡明中的瓶頸。

每個(gè)親身介入過大數(shù)據(jù)項(xiàng)目標(biāo)數(shù)據(jù)科學(xué)家、數(shù)據(jù)闡明師、數(shù)據(jù)庫(kù)打點(diǎn)員城市匯報(bào)你,項(xiàng)目標(biāo)80%的時(shí)間和經(jīng)費(fèi)花在數(shù)據(jù)的籌備事情上。這個(gè)中多源數(shù)據(jù)的融合是最淹滅資源的任務(wù)之一。難怪最近紐約時(shí)報(bào)驚呼:“數(shù)據(jù)科學(xué)家把高達(dá) 80%的時(shí)間用于數(shù)據(jù)籌備而不是用來發(fā)明新的貿(mào)易智能”。

傳統(tǒng)的統(tǒng)計(jì)闡明常常是對(duì)單一數(shù)據(jù)源(營(yíng)銷數(shù)據(jù)、行政報(bào)表、問卷觀測(cè)、人口普查等)舉辦深入的追蹤和闡明。闡明人員對(duì)數(shù)據(jù)的來歷和布局有必然的節(jié)制和深層的相識(shí)。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)源是多樣的、自然形成的、海量的數(shù)據(jù)經(jīng)常是半布局或無布局的。這就要求數(shù)據(jù)科學(xué)家和闡明師駕御多樣、多源的數(shù)據(jù),將它們梳理后舉辦挖掘和闡明。在這個(gè)進(jìn)程中,數(shù)據(jù)融合(data blending)就成為不行或缺的一步。

數(shù)據(jù)融合與數(shù)據(jù)客棧(Data Warehouse)、數(shù)據(jù)一體化(Data Integration)差異。它的目標(biāo)不是將一個(gè)企業(yè)(Enterprise)或組織的所有數(shù)據(jù)會(huì)合在一起并尺度化而發(fā)生獨(dú)一的真相(Single Truth)。它是以發(fā)生決定智能為方針將多種數(shù)據(jù)源中的相關(guān)數(shù)據(jù)提取、融合、梳理整合成一個(gè)闡明數(shù)據(jù)集(Analytic Dataset)。這個(gè)闡明數(shù)據(jù)集是個(gè)獨(dú)立的和機(jī)動(dòng)的實(shí)體,可隨數(shù)據(jù)源的變革重組、調(diào)解和更新。數(shù)據(jù)融合勝于數(shù)據(jù)客棧和數(shù)據(jù)一體化的另一點(diǎn)是它能海涵多源數(shù)據(jù)。

數(shù)據(jù)融合有六個(gè)根基步調(diào):(1)毗連所需多源數(shù)據(jù)庫(kù)并獲取相關(guān)數(shù)據(jù),(2)研究和領(lǐng)略所得到的數(shù)據(jù),(3)梳理和清理數(shù)據(jù),(4)數(shù)據(jù)轉(zhuǎn)換和成立布局,,(5)數(shù)據(jù)組合,(6)成立闡明數(shù)據(jù)集。這個(gè)進(jìn)程的每一步都需要數(shù)據(jù)事情者當(dāng)真細(xì)致的思考、辨認(rèn)、測(cè)試、清理、最后發(fā)生可信賴、有意義的闡明數(shù)據(jù)庫(kù)。在已往,這個(gè)數(shù)據(jù)籌備進(jìn)程很洪流平上是通過手動(dòng),十分費(fèi)時(shí)和艱苦。縱然有數(shù)據(jù)處理懲罰的軟件(如Excel, SAS, SPSS等),每個(gè)數(shù)據(jù)事情者也都是本身利用所熟悉的東西,形成本性化的,充其量是半自動(dòng)的數(shù)據(jù)籌備措施。最近幾年,大數(shù)據(jù)技能公司將數(shù)據(jù)處理懲罰整合進(jìn)程中相關(guān)技能薈萃,組合,晉升后開拓出專門用于數(shù)據(jù)融合的新東西。應(yīng)用這些直觀、可視、高效的軟件東西,數(shù)據(jù)籌備的進(jìn)程的工效大大提高,在必然水平上辦理了數(shù)據(jù)融合的技能瓶頸。

數(shù)據(jù)融合的另一瓶頸是思維。打個(gè)例如,數(shù)據(jù)融合就像水泥的現(xiàn)場(chǎng)所成。水泥建造可以從人工攪拌變?yōu)闄C(jī)器合成,提高了工效。但水泥設(shè)置仍需要正確的配方;沙、石、混凝土的比例,以及相關(guān)化學(xué)成份的添加對(duì)到達(dá)水泥的質(zhì)量尺度至關(guān)重要。數(shù)據(jù)處理懲罰新東西使數(shù)據(jù)科學(xué)家從數(shù)據(jù)籌備的繁瑣事情中解放了出來,但如何按照每個(gè)數(shù)據(jù)闡明項(xiàng)目量體定制,融合多源數(shù)據(jù)以形成有效的闡明數(shù)據(jù)集仍是數(shù)據(jù)科學(xué)家必需面臨的一個(gè)更具挑戰(zhàn)性的瓶頸。

多源的數(shù)據(jù)可以歸納為三大類:(1)一手?jǐn)?shù)據(jù)(Primary Data),包羅企業(yè)或組織直吸收羅掌控的內(nèi)部運(yùn)行數(shù)據(jù)和營(yíng)銷數(shù)據(jù),(2)二級(jí)數(shù)據(jù)(Secondary Data),圈外人收羅、整理、和提供的二手?jǐn)?shù)據(jù),如經(jīng)濟(jì)指標(biāo)、人口普查、民意觀測(cè)、網(wǎng)路數(shù)據(jù)等,(3)科學(xué)數(shù)據(jù)(Scientific Data),包羅科學(xué)研究 的成就、指數(shù)、算法、模子等。

這三類數(shù)據(jù)為數(shù)據(jù)為驅(qū)動(dòng)的智能決定提供了差異的調(diào)查角度。一手?jǐn)?shù)據(jù)詳細(xì)、機(jī)動(dòng)、快速積聚可以或許及時(shí)或靠近及時(shí)地為決定者提供監(jiān)測(cè)、追蹤、描寫信息。二級(jí)數(shù)據(jù)一般是按期發(fā)布的數(shù)據(jù),它能提供國(guó)度、地域、行業(yè)的狀況信息,成為數(shù)據(jù)闡明中的可比性坐標(biāo)。科學(xué)數(shù)據(jù)的更新是不按時(shí)的,但它代表著今朝科研成就,對(duì)數(shù)據(jù)闡明的建模和算法提供科學(xué)基本。在大數(shù)據(jù)闡明項(xiàng)目中,數(shù)據(jù)科學(xué)家需要針對(duì)詳細(xì)研究課題同時(shí)收集、整理、融合相關(guān)的三類數(shù)據(jù)。數(shù)據(jù)科學(xué)家的程度就表此刻將三類數(shù)據(jù)公道、有效、有意義的融合上。

數(shù)據(jù)融合是今朝大數(shù)據(jù)應(yīng)用和智能決定進(jìn)程中一個(gè)瓶頸。這個(gè)挑戰(zhàn)激發(fā)了新一輪大數(shù)據(jù)東西的快速成長(zhǎng)。按照2016年高德納公司數(shù)據(jù)打點(diǎn)和闡明軟件東西的評(píng)估陳訴,自我處事式數(shù)據(jù)籌備軟件(Self-service Data Preparation)已成為成長(zhǎng)最快的東西之一。這一成長(zhǎng)趨勢(shì)應(yīng)引起我們的存眷。同時(shí),數(shù)據(jù)融合的思維瓶頸仍是所有數(shù)據(jù)科學(xué)家必需面臨的更高條理的挑戰(zhàn)。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國(guó)外vps服務(wù)器租用 夢(mèng)飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號(hào)

主站蜘蛛池模板: 五常市| 满洲里市| 黎川县| 缙云县| 赞皇县| 中卫市| 宜兰市| 玛多县| 鹿泉市| 民勤县| 宜昌市| 宜章县| 庆元县| 丹寨县| 长武县| 顺昌县| 乐亭县| 清流县| 类乌齐县| 高州市| 体育| 淮北市| 旺苍县| 句容市| 平度市| 太白县| 长顺县| 麦盖提县| 江山市| 宝清县| 扬中市| 阳城县| 灵石县| 吕梁市| 古交市| 大化| 盐津县| 邻水| 滕州市| 循化| 桃园市|