大數據是當今很多企業IT運營的一個重要構成部門。據知名調研公司IDC預測,到2019年,大數據市場產值將到達1870億美元。大數據是數據闡明的一個要害部門,而闡明又是呆板和人類貿易智能及決定的基本。因為很明明,要是沒有某種基本設施,你無法得到各類數據:大數據、小數據或完全正確的數據,所以有須要看一看有助于構建樂成大數據架構的幾個因素。
個中,一些因素大概看起來很明明,另一些則較量微妙。實際上,所有因素配合對你的大數據系統將支持的闡明和動作帶來龐大的影響。
雖然,不是說只有這七個因素才會對大數據基本設施的事情方法帶來影響。大數據系統牽涉許多幾何部門,但這七個因素值得你思量,因為它們是很多其他部門和流程的基本。
眼下,你大概在利用大數據,即便你是在一家小公司事情。這要拜現有的基本設施部門所賜――個中很多部門連最小的IT部分也能會見。
陪伴這種可會見性而來的是,那些自己并不擁有數據科學專長的小公司員工大概感想狐疑和沮喪。假如你處于這種景象,本文不會消除你的所有狐疑,可是讓你可以開始向潛在的處事提供商和供給商提一些針對性的問題。
大數據遠不止Hadoop
在泛泛的談話中,大數據和Hadoop經常被人換著利用。這樣的功效讓人遺憾,因為大數據遠不止Hadoop。 Hadoop是一種文件系統(而不是數據庫),旨在跨數百或數千個處理懲罰節點傳送數據。它用于很多大數據應用,原因是作為一種文件系統,它擅優點理非布局化數據,這類數據甚至不像其周圍的數據。雖然,一些大數據是布局化的,為此你需要一個數據庫。但數據庫是本文先容的一個差異因素。
Hive和Impala將數據庫引入到Hadoop
這里說的是面向大數據世界中布局化數據的數據庫。假如你想讓Hadoop數據平臺井井有條,那么Hive大概正是你需要的。這種基本設施東西讓你可以針對很是不像SQL的Hadoop處理懲罰雷同SQL的操縱。
假如你有一部門數據很容易放在布局化數據庫中,那么Impala是旨在駐留在Hadoop內里的數據庫,它還可以利用你從Hadoop轉換到SQL進程中開拓的Hive呼吁。所有這三個(Hadoop、Hive和Impala)都是Apache項目,所以它們都是開源的。
Spark用于處理懲罰大數據
到今朝為止,我們一直在談論存儲和組織數據。可是,假如你想實際處理懲罰數據又怎么樣?這時候,你就需要一種像Spark這樣的闡明和處理懲罰引擎。Spark是另一個Apache項目,它包羅一批開源和貿易產物,拿來你添加到數據湖、客棧和數據庫的數據后,對數據做一些有用的操縱。
由于它可以會見你能想象的任何數據的庫,Spark可用于處理懲罰存儲在各類處所的各類數據。它同樣是開源的,所以你可以隨意修改它。
你可以對大數據執行SQL操縱
很多人知道如何構建SQL數據庫和編寫SQL查詢。面臨大數據時,這種專長沒有須要揮霍。Presto是一種開源SQL查詢引擎,它讓數據科學家可以利用SQL查詢,查詢駐留在從Hive到專有貿易數據庫打點系統的任何情況的數據庫。它被Facebook之類的大公司用于交互式查詢,而交互式查詢這個短語是要害。Presto就比如是一種對復雜數據集執行即席交互式查詢的東西。
在線存儲有一席之地
一些大數據任務需要用到不絕變革的數據。有時候,這是按期添加的數據,有時是通過闡明而變動的數據。不管在什么環境下,假如你的數據寫入與讀取一樣頻繁,那么你就需要該數據存儲在當地、聯機。假如你付出得起本錢,還但愿數據存儲在固態存儲介質上,因為這會大大加速速度――假如你在零售或生意業務園地的人員焦慮地期待功效返回,這是個重要的思量因素。
云存儲也有一席之地
假如在更復雜的聚合數據庫長舉辦闡明,那么云是完美的平臺。聚合數據并傳輸到云,運行闡明,然后拆掉實例。這正是云最擅長的那種彈性需求響應。操縱不會受到互聯網大概帶來的任何延遲問題的顯著影響。假如你把在專用當地系統長舉辦的及時闡明與云端運行的深度闡明團結起來,那么離充實發揮大數據基本設施的潛力近在咫尺。
別忘了可視化
闡明大數據是一回事,以一種對大大都人有意義的方法來顯示闡明功效又是另一回事。圖形對付整個“解讀”事情大有輔佐,韓國云服務器 美國云主機,所以應該將數據可視化視作是大數據基本設施的一個要害部門。