欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

大數據技術

打破數據統一的七大原則

數據統一數據分析領域里是個長期的挑戰,從事數據分析的從業者希望在數據分析之前,來自不同實體的數據能夠在同一個地方呈現出來。數據統一由七部分組成:1、獲取數據 2、清洗數據 3、轉換數據、4、模式集成 5、重復數據刪除、6、分類 7、導出

打破數據統一的七大原則

一般而言,企業實現數統一有兩種方法,香港網存空間 北京主機,提取轉換加載(ETL)和主數據管理(MDM)。

提取轉換加載(ETL)具有靈活性的優勢,適合不同的數據來源,使程序員可以手工編寫轉換程序,能夠確保源數據模式與集中式數據倉庫項目采用的全局模式匹配。但由于自動化程度低,提取轉換加載帶寬能超過20個數據源沒有多少家公司。

數據管理(MDM),它與ETL類似的地方在于,預設一個“主記錄”,每一個有專門的類別選項。如客戶、部件和供應商等的所有文件符合主記錄格式。但和ETL有所區別的是,MOM不是使用手動的定制腳本,而是依靠一套“模糊合并”規則,把所有不同的文件轉換成主格式。

可難解的是,在數據量過大的情況下,莫斯科服務器 新加坡vps,不管是ETL還是MDM,都無法解決數據統一難題。加上大數據集的龐大規模以及對程序員的苛刻要求任何的可規?;?a href="http://www.qzkangyuan.com/html/help/software/20170620/4242.html">數據統一項目都必須在很大程度上實現自動化,不能依靠手動編寫的程序。

著名計算機科學家、Tamr聯合創始人兼首席技術官邁克爾·斯通布雷克(Michael Stonebraker)針對數據統一存在的限制難題,提出數據統一的七條原則。

一、所有的可規模化系統,都必須自動進行絕大多數的操作。 

二、模式為先(schema-first)的產品永遠無法規?;?。唯一的選擇是采用‘模式為后’(schema-last)的產品。

三、需要進行具體的域操作時,只有協作性的系統才可實現規?;?。

四、為了實現可規?;?,任何的統一計算必須在多個核心和多個處理器上運行。

五、盡管存在第四條原則,但真正的可擴展應用需要復雜性低于N ** 2的并行算法。

六、規則系統實現是無法規模化的。只有機器學習系統才能將規模擴展到大公司所需要的程度。

七、必須支持實時增量統一。


【本文由中國IDC圈原創,轉載需注明出處】

數據統一 數據分析

關注中國IDC圈官方微信:idc-quan或微信號:821496803 我們將定期推送IDC產業最新資訊

查看心情排行你看到此篇文章的感受是:


支持


高興


震驚


憤怒


無聊


無奈


謊言


槍稿


不解


標題黨

2017-06-30 14:19:41

打破數據統一的七大原則

市場情報 Nuance Loop發布:為移動運營商打造的人工智能(AI)與數據分析營銷平臺

Nuance Loop每天為7億多用戶提供支持,并使移動運營商可以進行個性化預付費用戶服務的推廣與銷售。 <詳情>

2017-06-28 09:32:42

打破數據統一的七大原則

數據資訊 如何成功實現數據治理

如果你處理過大量數據,你也許聽說過“數據治理”一詞,你可能會想,它是什么?適不適合你?如何實施? <詳情>

2017-06-27 09:14:36

打破數據統一的七大原則

大數據資訊 借力大數據 未來政務貼上智能標簽

在全球范圍內,運用大數據推動智慧政務正成為趨勢,智慧政務以大數據分析為核心。 <詳情>

2017-06-26 10:18:29

打破數據統一的七大原則

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 濮阳县| 酒泉市| 临泉县| 滨海县| 英山县| 陆河县| 北海市| 新丰县| 桂平市| 池州市| 宝清县| 黄大仙区| 伊吾县| 大足县| 永济市| 清镇市| 尉犁县| 诸城市| 赤水市| 桓仁| 界首市| 德昌县| 临猗县| 肃宁县| 郯城县| 武穴市| 连平县| 安乡县| 桃源县| 南澳县| 罗田县| 宝山区| 阿巴嘎旗| 开原市| 沙湾县| 清远市| 衡水市| 富川| 海盐县| 赞皇县| 青川县|