分析大量數(shù)據(jù)只是使大數(shù)據(jù)與以前的數(shù)據(jù)分析不同的部分原因之一。讓我們來從下面三個方面看看。
我們每天都在吃飯,睡覺,工作,玩耍,與此同時(shí)產(chǎn)生大量的數(shù)據(jù)。根據(jù)IBM調(diào)研的說法,人類每天生成2.5億(250億)字節(jié)的數(shù)據(jù)。 這相當(dāng)于一堆DVD數(shù)據(jù)從地球到月球的距離,涵蓋我們發(fā)送的文本、上傳的照片、各類傳感器數(shù)據(jù)、設(shè)備與設(shè)備之間的通信的所有信息等。
這也就是為什么“大數(shù)據(jù)”成為如此常見的流行詞的一個重要原因。簡單地說,當(dāng)人們談?wù)摯?a href="http://www.qzkangyuan.com/cnidc/bigdata/faal/20170619/3449.html">數(shù)據(jù)時(shí),他們指的是獲取大量數(shù)據(jù)的能力,分析它,并將其轉(zhuǎn)化為有用的東西。
1.確切的說,什么是大數(shù)據(jù)?
當(dāng)然,大數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不止這些?
· 通常從多個來源獲取大量數(shù)據(jù)
· 不僅僅是大量的數(shù)據(jù),而且是不同類型的數(shù)據(jù),同時(shí)也有多種數(shù)據(jù),以及隨時(shí)間變化的數(shù)據(jù),這些數(shù)據(jù)不需要轉(zhuǎn)換成特定的格式或一致性。
· 以一種方式分析數(shù)據(jù),允許對相同的數(shù)據(jù)池進(jìn)行分析,從而實(shí)現(xiàn)不同的目的 · 盡快實(shí)現(xiàn)所有這一切。
在早些時(shí)候,這個行業(yè)提出了一個縮略詞來描述這四個方面中的三個:VVV,體積(數(shù)量巨大),多樣性(不同類型的數(shù)據(jù)和數(shù)據(jù)隨時(shí)間變化的事實(shí))和周轉(zhuǎn)率(速度)。
2. 大數(shù)據(jù)與數(shù)據(jù)倉庫:
VVV的縮寫詞所忽略的是數(shù)據(jù)不需要永久更改(轉(zhuǎn)換)的關(guān)鍵概念——進(jìn)行分析。這種非破壞性分析意味著,組織可以分析相同的數(shù)據(jù)連接池以不同的目的,并可以收集到不同目的的來源分析數(shù)據(jù)。
(備注:數(shù)據(jù)庫連接池負(fù)責(zé)分配、管理和釋放數(shù)據(jù)庫連接,它允許應(yīng)用程序重復(fù)使用一個現(xiàn)有的數(shù)據(jù)庫連接,而不是再重新建立一個;釋放空閑時(shí)間超過最大空閑時(shí)間的數(shù)據(jù)庫連接來避免因?yàn)闆]有釋放數(shù)據(jù)庫連接而引起的數(shù)據(jù)庫連接遺漏。這項(xiàng)技術(shù)能明顯提高對數(shù)據(jù)庫操作的性能。)
相比之下,數(shù)據(jù)倉庫是專門為特定目的分析特定數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)化并轉(zhuǎn)換為特定格式,原始數(shù)據(jù)在該過程中基本上被銷毀,用于特定目的,而不是其他被稱為提取,轉(zhuǎn)換和加載(ETL)。 數(shù)據(jù)倉庫的ETL方法有限分析具體數(shù)據(jù)進(jìn)行具體分析。 當(dāng)您的所有數(shù)據(jù)都存在于您的交易系統(tǒng)中時(shí),directadmin安裝 directadmin漢化,這是非常好的,但在當(dāng)今互聯(lián)網(wǎng)連接的世界中,數(shù)據(jù)來自無處不在。
備注:ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。
ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
信息是現(xiàn)代企業(yè)的重要資源,是企業(yè)運(yùn)用科學(xué)管理、決策分析的基礎(chǔ)。目前,大多數(shù)企業(yè)花費(fèi)大量的資金和時(shí)間來構(gòu)建聯(lián)機(jī)事務(wù)處理OLTP的業(yè)務(wù)系統(tǒng)和辦公自動化系統(tǒng),用來記錄事務(wù)處理的各種相關(guān)數(shù)據(jù)。據(jù)統(tǒng)計(jì),數(shù)據(jù)量每2~3年時(shí)間就會成倍增長,這些數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值,而企業(yè)所關(guān)注的通常只占在總數(shù)據(jù)量的2%~4%左右。
因此,企業(yè)仍然沒有最大化地利用已存在的數(shù)據(jù)資源,以至于浪費(fèi)了更多的時(shí)間和資金,也失去制定關(guān)鍵商業(yè)決策的最佳契機(jī)。于是,企業(yè)如何通過各種技術(shù)手段,并把數(shù)據(jù)轉(zhuǎn)換為信息、知識,已經(jīng)成了提高其核心競爭力的主要瓶頸。而ETL則是主要的一個技術(shù)手段。
數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報(bào)告和決策支持目的而創(chuàng)建。 為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。數(shù)據(jù)倉庫是決策支持系統(tǒng)(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。
決策支持系統(tǒng)(Decision Support System,簡稱DSS),是以管理科學(xué)、運(yùn)籌學(xué)、控制論、和行為科學(xué)為基礎(chǔ),以計(jì)算機(jī)技術(shù)、仿真技術(shù)和信息技術(shù)為手段,針對半結(jié)構(gòu)化的決策問題,支持決策活動的具有智能作用的人機(jī)系統(tǒng)。該系統(tǒng)能夠?yàn)闆Q策者提供所需的數(shù)據(jù)、信息和背景資料,幫助明確決策目標(biāo)和進(jìn)行問題的識別,建立或修改決策模型,提供各種備選方案,并且對各種方案進(jìn)行評價(jià)和優(yōu)選,通過人機(jī)交互功能進(jìn)行分析、比較和判斷,為正確的決策提供必要的支持。它通過與決策者的一系列人機(jī)對話過程,為決策者提供各種可靠方案,檢驗(yàn)決策者的要求和設(shè)想,從而達(dá)到支持決策的目的。