欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

大數(shù)據(jù)技術(shù)

大數(shù)據(jù)時(shí)代下的數(shù)據(jù)集成,與落伍的ETL技術(shù)

在大型企業(yè)中保證業(yè)務(wù)數(shù)據(jù)的一致性是一個(gè)非常棘手的問題。一般來說,如跨國(guó)型公司的客戶或產(chǎn)品相關(guān)數(shù)據(jù),往往有多個(gè)來源。這就導(dǎo)致了,有時(shí)即使是最簡(jiǎn)單的問題也很難回答。在此情況下,數(shù)據(jù)集成可能是成為一種解決辦法。

數(shù)據(jù)集成為組織提供了存儲(chǔ)在多個(gè)數(shù)據(jù)源中數(shù)據(jù)的統(tǒng)一視圖,而提取、轉(zhuǎn)換和加載(ETL)技術(shù)就是數(shù)據(jù)集成的早期嘗試。

使用ETL,可以從多個(gè)源事務(wù)系統(tǒng)提取、轉(zhuǎn)換和加載數(shù)據(jù)到單個(gè)位置,例如公司數(shù)據(jù)倉(cāng)庫(kù)。提取和加載部分相對(duì)機(jī)械,但轉(zhuǎn)換部分不那么容易。為了實(shí)現(xiàn)這一點(diǎn),您需要對(duì)業(yè)務(wù)規(guī)則進(jìn)行定義,來解釋哪些轉(zhuǎn)換是有效的。

ETL與數(shù)據(jù)集成之間的一個(gè)主要區(qū)別是,數(shù)據(jù)集成是一個(gè)更廣泛的領(lǐng)域。它可能還包括數(shù)據(jù)質(zhì)量和定義主引用數(shù)據(jù)的過程,例如在公司范圍內(nèi)定義客戶、產(chǎn)品、供應(yīng)商和其他與業(yè)務(wù)事務(wù)提供有關(guān)的關(guān)鍵信息。

數(shù)據(jù)分類與一致性

下面我們看一個(gè)例子。一個(gè)大的營(yíng)業(yè)公司可能需要從幾個(gè)層次對(duì)產(chǎn)品和客戶進(jìn)行分類,以分段分層展開營(yíng)銷活動(dòng)。對(duì)于該公司旗下規(guī)模較小的子公司,則可以通過簡(jiǎn)單的產(chǎn)品和客戶分類層次結(jié)構(gòu)來實(shí)現(xiàn)這一點(diǎn)。在這個(gè)例子中,規(guī)模更大的組織可能將一罐可樂歸類為碳酸飲料、一種飲料、食品和飲料銷售的一部分。然而,較小的子公司可能會(huì)把同樣的可樂歸入食品和飲料銷售,而沒有中間的分類。這就是為什么需要分類的一致性——或者至少是對(duì)差異的理解——來獲得公司整體銷售的全局視圖的原因。

不幸的是,知道你在和誰做生意并不總是那么簡(jiǎn)單。例如,Shell U.K.是石油巨頭Royal Dutch Shell公司的子公司。像Aera Energy和Bonny Gas Transport這樣的公司都是Shell公司的實(shí)體,有些還有其他投資者。因此,與這些公司進(jìn)行的業(yè)務(wù)交易,需要作為客戶添加到Shell公司的全局視圖中,但是從公司名稱來看,這種關(guān)系并不明顯。

著名投資銀行副總裁曾告訴筆者,他們不知道自己在全球范圍內(nèi)做了多少業(yè)務(wù),例如,德意志銀行(Deutsche bank),更不用說企業(yè)是否盈利,這些問題的答案埋在各種全球性投資銀行部門的系統(tǒng)內(nèi)。

數(shù)據(jù)質(zhì)量問題

ETL技術(shù)是解決這個(gè)問題的早期嘗試。但要正確獲得轉(zhuǎn)換步驟,您需要定義業(yè)務(wù)規(guī)則,制定什么樣的轉(zhuǎn)換是有效的——例如,如何匯總銷售事務(wù)或映射一個(gè)數(shù)據(jù)庫(kù)字段,當(dāng)“m”用于定義男性顧客,而“male”用于另一個(gè)含義時(shí)。技術(shù)的發(fā)展對(duì)這一過程是有幫助的。

事實(shí)證明,實(shí)現(xiàn)集成化的數(shù)據(jù)比ETL和數(shù)據(jù)集成本身更廣泛。數(shù)據(jù)質(zhì)量也是一個(gè)重要因素。如果發(fā)現(xiàn)客戶或產(chǎn)品文件中有重復(fù)的內(nèi)容怎么辦?在筆者參與的一個(gè)項(xiàng)目中,有80%的客戶記錄都是重復(fù)的。這意味著,該公司的商業(yè)客戶數(shù)量只有它認(rèn)為的五分之一。

在原材料中,主文件的重復(fù)率通常是20%到30%。當(dāng)進(jìn)行公司概述,需要匯總數(shù)據(jù)時(shí),亞洲服務(wù)器,應(yīng)該消除這些異常情況。

不斷增長(zhǎng)的數(shù)據(jù)量

盡管數(shù)據(jù)集成對(duì)大公司來說有其優(yōu)勢(shì),但也不是沒有挑戰(zhàn)。如公司產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)的持續(xù)增長(zhǎng)。

而且,由于數(shù)據(jù)以不同的格式保存——傳感器數(shù)據(jù)、web日志、呼叫記錄、文檔、圖像和視頻——ETL工具在這種環(huán)境中可能是無效的,因?yàn)樗鼈冊(cè)谠O(shè)計(jì)時(shí)并沒有考慮到這些因素。當(dāng)存在大量數(shù)據(jù)或大數(shù)據(jù)時(shí),這些工具也會(huì)遇到困難。如Apache Kafka等類似工具,試圖通過實(shí)時(shí)流數(shù)據(jù)來解決這個(gè)問題,香港服務(wù)器租用,這使他們能夠克服以前的消息總線方法對(duì)實(shí)時(shí)數(shù)據(jù)集成的限制。

從早期的ETL到現(xiàn)在,數(shù)據(jù)集成的相關(guān)技術(shù)、理念已經(jīng)發(fā)生了很大的變化。但仍需要繼續(xù)保持不斷進(jìn)化,以跟上企業(yè)持續(xù)變化的需求和大數(shù)據(jù)時(shí)代下不斷涌現(xiàn)的新型挑戰(zhàn)。

【凡本網(wǎng)注明來源非中國(guó)IDC圈的作品,均轉(zhuǎn)載自其它媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)?!?/p>

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國(guó)外vps服務(wù)器租用 夢(mèng)飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號(hào)

主站蜘蛛池模板: 关岭| 嘉祥县| 合江县| 蛟河市| 建水县| 原平市| 邵武市| 怀远县| 瑞金市| 中山市| 广宁县| 兴国县| 温泉县| 株洲市| 平山县| 麻城市| 固安县| 綦江县| 伊金霍洛旗| 万年县| 白朗县| 海盐县| 双峰县| 红河县| 梓潼县| 沁水县| 祁门县| 三门峡市| 清原| 大名县| 卓资县| 安吉县| 武功县| 吉木乃县| 满城县| 松潘县| 江川县| 金堂县| 衡阳市| 呈贡县| 治县。|