欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

大數(shù)據(jù)技術(shù)的核心包括哪些方面?

大數(shù)據(jù)在經(jīng)濟發(fā)展中的重大意義,并不意味著它可以取代一切對社會問題的理性思考,科學(xué)發(fā)展的邏輯不能迷失在海量數(shù)據(jù)中。大數(shù)據(jù)技術(shù)體系龐大而復(fù)雜,基礎(chǔ)技術(shù)包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學(xué)習(xí)、并行計算和可視化等多種技術(shù)門類和不同技術(shù)水平。

一、數(shù)據(jù)存儲

Hadoop作為一個開源框架,是專門為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計的,而HDFS作為其核心存儲引擎,在數(shù)據(jù)存儲中得到了廣泛應(yīng)用。HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,可以看作是hdfs的封裝,其本質(zhì)是數(shù)據(jù)存儲和NoSQL數(shù)據(jù)庫。HBase是一個Key/Value系統(tǒng),部署在hdfs上,克服了hdfs在隨機讀寫方面的缺點。和hadoop一樣,Hbase主要依靠橫向擴展,通過增加廉價的商用服務(wù)器來增加計算和存儲容量。Phoenix相當(dāng)于一個Java中間件,它幫助開發(fā)工程師訪問NoSQL數(shù)據(jù)庫,就像使用JDBC訪問關(guān)系數(shù)據(jù)庫一樣。

大數(shù)據(jù)技術(shù)的核心包括哪些方面?

紗線是一個Hadoop資源管理器,可以為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。它的引入在利用率、統(tǒng)一資源管理和數(shù)據(jù)共享方面給集群帶來了巨大的好處。紗線由以下組件組成:全局資源管理器、資源管理器的每個節(jié)點代理的節(jié)點管理器、代表每個應(yīng)用程序的應(yīng)用程序,以及每個應(yīng)用程序主控器在節(jié)點管理器上運行多個容器。Mesos是一個開源的集群管理軟件,支持Hadoop、ElasticSearch、Spark、Storm和Kafka。Redis是一個速度非常快的非關(guān)系數(shù)據(jù)庫,可以存儲鍵和五種不同類型的值之間的映射,將內(nèi)存中存儲的鍵值對數(shù)據(jù)持久化到硬盤上,使用復(fù)制特性來擴展性能,還可以使用客戶端分片來擴展寫入性能。

Atlas是介于應(yīng)用程序和MySQL之間的中間件。在后端DB的視圖中,Atlas相當(dāng)于與其連接的一個客戶端,在前端應(yīng)用的視圖中,Atlas相當(dāng)于一個DB。Atlas作為服務(wù)器,與應(yīng)用程序進行通信,應(yīng)用程序?qū)崿F(xiàn)了MySQL的客戶端和服務(wù)器協(xié)議,與MySQL作為客戶端進行通信。它對應(yīng)用屏蔽了數(shù)據(jù)庫的細(xì)節(jié),還維護了連接池,以減輕MySQL的負(fù)擔(dān)。啟動Atlas后,會創(chuàng)建多個線程,其中一個為主線程,其余為工作線程。主線程負(fù)責(zé)監(jiān)聽所有客戶端連接請求,而工作線程只監(jiān)聽主線程的命令請求。隨著互聯(lián)網(wǎng)科技的蓬勃發(fā)展,人工智能時代即將到來,所以抓住下一個窗口。幫助那些想向互聯(lián)網(wǎng)方向?qū)W習(xí),但因為時間和資源不足而放棄的人。

Kudu是圍繞Hadoop生態(tài)系統(tǒng)構(gòu)建的存儲引擎。Kudu與Hadoop生態(tài)系統(tǒng)有著相同的設(shè)計理念。它運行在普通服務(wù)器上,可以大規(guī)模分布式部署,滿足行業(yè)高可用性要求。設(shè)計理念是對快速數(shù)據(jù)進行快速分析。作為一個開源存儲引擎,它可以提供低延遲的隨機讀寫和高效的數(shù)據(jù)分析。Kudu不僅提供了用于插入、更新和刪除的行級API,還提供了接近Parquet性能的批量掃描操作。使用相同的存儲不僅可以隨機讀寫,還可以滿足數(shù)據(jù)分析的要求。Kudu有廣泛的應(yīng)用,例如實時數(shù)據(jù)分析和數(shù)據(jù)可能變化的時間序列數(shù)據(jù)應(yīng)用。在數(shù)據(jù)存儲過程中,涉及的數(shù)據(jù)表有數(shù)百列,其中包括各種復(fù)雜的Query。建議采用拼花、ORC等列存儲方式壓縮數(shù)據(jù)。拼花地板可以支持靈活的壓縮選項,并顯著減少磁盤上的存儲。

二、數(shù)據(jù)查詢和分析

Hive的核心工作是將SQL語句翻譯成MR程序,可以將結(jié)構(gòu)化數(shù)據(jù)映射成數(shù)據(jù)庫表,并提供HQL(Hive SQL)查詢功能。Hive本身并不存儲和計算數(shù)據(jù),它完全依賴于HDFS和MapReduce。Hive可以理解為一個客戶端工具,將SQL操作轉(zhuǎn)換成相應(yīng)的MapReduce作業(yè),然后在hadoop上運行。Hive支持標(biāo)準(zhǔn)的SQL語法,這消除了用戶編寫MapReduce程序的需要。它的出現(xiàn)使精通SQL技能但不熟悉MapReduce、編程能力弱、不擅長Java語言的用戶能夠方便地在HDFS大規(guī)模數(shù)據(jù)集上查詢、匯總和分析數(shù)據(jù)。Hive是為批量處理大數(shù)據(jù)而誕生的。Hive的出現(xiàn)解決了傳統(tǒng)關(guān)系數(shù)據(jù)庫(MySql、Oracle)處理大數(shù)據(jù)的瓶頸。Hive將執(zhí)行計劃分為map-> shuffle-> reduce-> map-> shuffle-> reduce…如果一個查詢被編譯成多輪MapReduce,會有更多的中間結(jié)果。由于MapReduce執(zhí)行框架本身的特點,過多的中間進程會增加整個Query的執(zhí)行時間。在Hive的運行過程中,用戶只需要創(chuàng)建表、導(dǎo)入數(shù)據(jù)、編寫SQL分析語句。這個過程的其余部分由Hive框架自動完成。

大數(shù)據(jù)技術(shù)的核心包括哪些方面?

Impala是Hive的補充,可以實現(xiàn)高效的SQL查詢。Impala用于在Hadoop上實現(xiàn)SQL,對大數(shù)據(jù)進行實時查詢和分析。通過大家熟悉的傳統(tǒng)關(guān)系數(shù)據(jù)庫的SQL風(fēng)格來操作大數(shù)據(jù),數(shù)據(jù)也可以存儲在HDFS和HBase中。Impala不再使用速度慢的Hive+MapReduce批處理,而是使用類似于商用并行關(guān)系數(shù)據(jù)庫中的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine組成),可以直接查詢來自HDFS或HBase的數(shù)據(jù),具有SELECT、JOIN和統(tǒng)計功能,大大降低了延遲。Impala將整個查詢分成一個執(zhí)行計劃樹,而不是一系列MapReduce任務(wù)。與Hive相比,Impala沒有MapReduce啟動時間。

Hive適合長期批量查詢分析,而Impala適合實時交互SQL查詢。Impala為數(shù)據(jù)人員提供了一個大數(shù)據(jù)分析工具,可以快速實驗和驗證他們的想法。先用Hive進行數(shù)據(jù)轉(zhuǎn)換,再用Impala對Hive處理的數(shù)據(jù)集進行快速數(shù)據(jù)分析。一般來說,Impala將執(zhí)行計劃表示為一個完整的執(zhí)行計劃樹,可以更自然地將執(zhí)行計劃分配給每個Impala來執(zhí)行查詢,而不是像Hive那樣組合成流水線映射->reduce模式,從而保證Impala具有更好的并發(fā)性,避免不必要的中間排序和洗牌。然而,Impala并不支持UDF,它所能處理的問題也有一定的局限性。Spark具有Hadoop MapReduce的特點,它將Job的中間輸出結(jié)果保存在內(nèi)存中,因此不需要讀取HDFS。Spark支持內(nèi)存分布式數(shù)據(jù)集,不僅可以提供交互式查詢,還可以優(yōu)化迭代工作負(fù)載。Spark是用Scala語言實現(xiàn)的,它使用Scala作為應(yīng)用框架。與Hadoop不同,Spark和Scala可以緊密集成,其中Scala可以像本地收集對象一樣輕松操作分布式數(shù)據(jù)集。Nutch是一個開源的Java搜索引擎。它提供了我們運行自己的搜索引擎所需的所有工具,包括全文搜索和網(wǎng)絡(luò)爬蟲。

Solr是一個用Java編寫的全文搜索服務(wù)器,運行在Servlet容器(如Apache Tomcat或Jetty)中。它提供了類似Web-service的API接口,用戶可以通過http請求向搜索引擎服務(wù)器提交一定格式的XML文件,生成索引。也可以通過Http Get操作進行搜索請求,得到XML格式的返回結(jié)果。Elasticsearch是一個開源全文搜索引擎,基于Lucene搜索服務(wù)器,能夠快速存儲、搜索和分析海量數(shù)據(jù)。它專為云計算而設(shè)計,可以實現(xiàn)實時搜索,穩(wěn)定、可靠、快速,并且易于安裝和使用。它還涉及一些機器學(xué)習(xí)語言。例如,Mahout的主要目標(biāo)是創(chuàng)建一些可擴展的機器學(xué)習(xí)算法,供開發(fā)人員在Apache的許可下免費使用。深度學(xué)習(xí)框架Caffe,使用數(shù)據(jù)流圖進行數(shù)值計算的開源軟件庫TensorFlow,以及其他常用的機器學(xué)習(xí)算法,如貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、協(xié)同過濾等。

三、數(shù)據(jù)采集和預(yù)處理

對于來自各種來源的數(shù)據(jù),包括移動互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)等。這些海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)是分散的,也就是所謂的數(shù)據(jù)孤島。這個時候,這些數(shù)據(jù)就沒有意義了。數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入數(shù)據(jù)倉庫,將分散的數(shù)據(jù)整合在一起,對這些數(shù)據(jù)進行綜合分析。數(shù)據(jù)收集包括文件日志收集、數(shù)據(jù)庫日志收集、關(guān)系數(shù)據(jù)庫訪問和應(yīng)用程序訪問等。當(dāng)數(shù)據(jù)量相對較少時,可以編寫一個正則腳本將日志寫入存儲系統(tǒng)。但是隨著數(shù)據(jù)量的增加,這些方法無法提供數(shù)據(jù)安全,操作維護難度大,需要更強的解決方案

大數(shù)據(jù)技術(shù)的核心包括哪些方面?

作為一個實時日志采集系統(tǒng),F(xiàn)lume NG支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送器進行數(shù)據(jù)采集,同時對數(shù)據(jù)進行簡單處理后寫入各種數(shù)據(jù)接收器(如text、HDFS、Hbase等)。水槽NG采用三層:藥劑層、收集器層和儲存層,每層均可水平展開。代理包括源、通道和接收器。Source用于將數(shù)據(jù)源消費(收集)到通道組件中,channel作為中間臨時存儲來存儲source的所有組件信息。接收器從通道讀取數(shù)據(jù),并在成功讀取后刪除通道中的信息。網(wǎng)易數(shù)據(jù)運河NDC,字面意思是網(wǎng)易數(shù)據(jù)運河系統(tǒng),是一個用于實時數(shù)據(jù)遷移、同步和訂閱結(jié)構(gòu)化數(shù)據(jù)庫的平臺解決方案。它集成了網(wǎng)易過去在數(shù)據(jù)傳輸領(lǐng)域的各種工具和經(jīng)驗,通過數(shù)據(jù)鏈路將單機數(shù)據(jù)庫、分布式數(shù)據(jù)庫、OLAP系統(tǒng)和下游應(yīng)用連接在一起。除了確保高效的數(shù)據(jù)傳輸,NDC的設(shè)計遵循統(tǒng)一和平臺化的理念。

Logstash是一個開源的服務(wù)器端數(shù)據(jù)處理管道,可以同時從多個來源收集和轉(zhuǎn)換數(shù)據(jù),然后將數(shù)據(jù)發(fā)送到您最喜歡的“存儲庫”。一個常見的存儲庫是Elasticsearch。Logstash支持各種輸入選項,可以同時從許多常見的數(shù)據(jù)源中捕獲事件,并且可以以連續(xù)流模式輕松地從您的日志、指示器、Web應(yīng)用程序、數(shù)據(jù)存儲和各種AWS服務(wù)中收集數(shù)據(jù)。Sqoop是一種在關(guān)系數(shù)據(jù)庫和Hadoop之間傳輸數(shù)據(jù)的工具。它可以將關(guān)系數(shù)據(jù)庫(如Mysql和Oracle)中的數(shù)據(jù)導(dǎo)入Hadoop(如HDFS、Hive和Hbase),也可以將Hadoop(如HDFS、Hive和Hbase)中的數(shù)據(jù)導(dǎo)入關(guān)系數(shù)據(jù)庫(如Mysql和Oracle)。Sqoop使MapReduce作業(yè)(容錯能力極強的分布式并行計算)能夠執(zhí)行任務(wù)。Sqoop的另一個優(yōu)勢是,它傳輸大量結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的過程是完全自動化的。

流媒體計算是行業(yè)研究的熱點。流計算可以實時清理、聚合和分析多個高吞吐量的數(shù)據(jù)源,能夠快速處理和反饋社交網(wǎng)站、新聞等存在的數(shù)據(jù)流。目前有很多大數(shù)據(jù)流分析工具,比如開源的strom、spark streaming等等。Strom集群結(jié)構(gòu)是由一個主節(jié)點(nimbus)和多個工作節(jié)點(supervisors)組成的主從結(jié)構(gòu)。主節(jié)點由配置靜態(tài)指定,或者在運行時動態(tài)選擇。nimbus和supervisor是Storm提供的后臺守護程序,它們之間的通信是結(jié)合Zookeeper的狀態(tài)變化通知和監(jiān)控通知來處理的。nimbus process的主要職責(zé)是管理、協(xié)調(diào)和監(jiān)控集群上運行的拓?fù)?包括拓?fù)浒l(fā)布、任務(wù)分配、事件處理過程中的任務(wù)重新分配等)。在等待nimbus分配任務(wù)后,supervisor進程生成并監(jiān)控由worker(jvm進程)執(zhí)行的任務(wù)。主管和工作人員在不同的JVM上運行。如果由主管啟動的工作進程由于錯誤而退出(或被終止),主管將嘗試重新生成一個新的工作進程。

當(dāng)使用上游模塊的數(shù)據(jù)進行計算、統(tǒng)計和分析時,我們可以使用消息系統(tǒng),尤其是分布式消息系統(tǒng)。Scala編寫的Kafka是一個基于發(fā)布/訂閱的分布式消息系統(tǒng)。卡夫卡的設(shè)計理念之一是同時提供離線處理和實時處理,并將數(shù)據(jù)實時備份到另一個數(shù)據(jù)中心。卡夫卡可以有許多生產(chǎn)者和消費者共享多個主題,并以主題為單位總結(jié)信息。卡夫卡發(fā)布消息的節(jié)目叫制作人,也叫制作人,訂閱話題消費消息的節(jié)目叫消費人,也叫消費者。當(dāng)Kafka以集群模式運行時,它可以由一個服務(wù)或多個服務(wù)組成,每個服務(wù)稱為一個代理。在運行過程中,生產(chǎn)者通過網(wǎng)絡(luò)向卡夫卡集群發(fā)送消息,集群向消費者提供消息。卡夫卡通過動物園管理員管理集群配置,選舉領(lǐng)導(dǎo)者,并在消費群體發(fā)生變化時進行再平衡。生產(chǎn)者使用推模式向代理發(fā)布消息,消費者使用拉模式從代理訂閱和消費消息。卡夫卡可以和弗魯姆一起工作。如果需要將流數(shù)據(jù)從Kafka傳輸?shù)絟adoop,可以使用Flume代理,使用Kafka作為源,這樣就可以將數(shù)據(jù)從Kafka讀取到Hadoop。

大數(shù)據(jù)技術(shù)的核心包括哪些方面?

Zookeeper是一個分布式、開源的分布式應(yīng)用協(xié)調(diào)服務(wù),提供數(shù)據(jù)同步服務(wù)。它的主要功能是配置管理、名稱服務(wù)、分布式鎖和集群管理。配置是指在一個地方對配置進行修改,讓所有對這個地方的配置感興趣的人都可以更改,免去了繁瑣的手動復(fù)制配置,保證了數(shù)據(jù)的可靠性和一致性。同時可以通過名稱獲取資源或服務(wù)的地址等信息,監(jiān)控集群中機器的變化,實現(xiàn)類似心跳機制的功能。

四、數(shù)據(jù)可視化

對接一些BI平臺,將分析得到的數(shù)據(jù)可視化,可以用來指導(dǎo)決策服務(wù)。主流BI平臺,如敏捷BI Tableau、Qlikview、PowrerBI等。國外,SmallBI和國內(nèi)新興的網(wǎng)易等。在上述每個階段,確保數(shù)據(jù)安全都是一個不容忽視的問題。Kerberos是一種基于網(wǎng)絡(luò)身份驗證的協(xié)議,用于在不安全的網(wǎng)絡(luò)中以安全的方式驗證個人通信。它允許一個實體在不安全的網(wǎng)絡(luò)環(huán)境中進行通信,并以安全的方式向另一個實體證明其身份。控制權(quán)限的Ranger是一個Hadoop集群權(quán)限框架,為操作、監(jiān)控和管理復(fù)雜數(shù)據(jù)提供權(quán)限,它提供了一個集中的管理機制來管理基于紗的Hadoop生態(tài)系統(tǒng)中的所有數(shù)據(jù)權(quán)限。它可以對Hive、Hbase等Hadoop生態(tài)組件進行細(xì)粒度的數(shù)據(jù)訪問控制。通過操作Ranger控制臺,管理員可以輕松配置策略來控制用戶對HDFS文件夾、HDFS文件、數(shù)據(jù)庫、表和字段的訪問。這些策略可以針對不同的用戶和組進行設(shè)置,權(quán)限可以與hadoop無縫對接。

五、數(shù)據(jù)清理

MapReduce作為Hadoop的查詢引擎,用于大規(guī)模數(shù)據(jù)集的并行計算。“地圖”和“減少”是它的主要思想。程序員在分布式系統(tǒng)中運行程序非常方便,無需分布式并行編程。隨著業(yè)務(wù)數(shù)據(jù)的增加,需要訓(xùn)練和清理的數(shù)據(jù)會越來越復(fù)雜。此時,需要一個任務(wù)調(diào)度系統(tǒng),如oozie或azkaban,來調(diào)度和監(jiān)控關(guān)鍵任務(wù)。Oozie是一個面向Hadoop平臺的工作流調(diào)度引擎,提供RESTful API接口接受用戶的提交請求(提交工作流作業(yè))。提交工作流后,工作流引擎負(fù)責(zé)工作流的執(zhí)行和狀態(tài)轉(zhuǎn)換。用戶在HDFS上部署作業(yè)(MR作業(yè)),然后將工作流提交給Oozie,后者以異步方式將作業(yè)(MR作業(yè))提交給Hadoop。這就是為什么在調(diào)用ozie的RESTful接口提交作業(yè)后,可以立即返回一個JobId,用戶程序不必等待作業(yè)執(zhí)行(因為有些大型作業(yè)可能會執(zhí)行很長時間(幾個小時甚至幾天)。Oozie將工作流對應(yīng)的Action異步提交給hadoop,在后臺執(zhí)行。

阿茲卡班也是一種工作流控制引擎,可以用來解決hadoop或spark等多個離線計算任務(wù)之間的依賴問題。阿茲卡班主要由三部分組成:關(guān)系數(shù)據(jù)庫、阿茲卡班Web服務(wù)器和阿茲卡班執(zhí)行器服務(wù)器。阿茲卡班將大部分狀態(tài)信息保存在MySQL中,阿茲卡班Web Server提供Web UI,這是阿茲卡班的主要管理器,包括工作流執(zhí)行過程中的項目管理、身份驗證、調(diào)度和監(jiān)控。阿茲卡班執(zhí)行器服務(wù)器用于調(diào)度工作流和任務(wù),記錄工作流或任務(wù)的日志。計算任務(wù)的處理平臺Sloth是網(wǎng)易首個自主研發(fā)的流媒體計算平臺,旨在滿足公司各類產(chǎn)品對流媒體計算日益增長的需求。作為一個計算服務(wù)平臺,它易用、實時、可靠,節(jié)省了用戶在技術(shù)(開發(fā)、運維)上的投入,幫助用戶專注于解決產(chǎn)品本身的流媒體計算需求。有不懂的請咨詢夢飛云idc了解。

文章鏈接: http://www.qzkangyuan.com/3268.html

文章標(biāo)題:大數(shù)據(jù)技術(shù)的核心包括哪些方面?

文章版權(quán):夢飛科技所發(fā)布的內(nèi)容,部分為原創(chuàng)文章,轉(zhuǎn)載請注明來源,網(wǎng)絡(luò)轉(zhuǎn)載文章如有侵權(quán)請聯(lián)系我們!

聲明:本站所有文章,如無特殊說明或標(biāo)注,均為本站原創(chuàng)發(fā)布。任何個人或組織,在未征得本站同意時,禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系我們進行處理。

給TA打賞
共{{data.count}}人
人已打賞
服務(wù)器vps推薦

什么是1U、2U、4U、42U服務(wù)器?

2021-12-23 13:55:20

服務(wù)器vps推薦

什么是數(shù)據(jù)泄露?企業(yè)如何防止數(shù)據(jù)泄露?

2021-12-23 14:36:35

0 條回復(fù) A文章作者 M管理員
    暫無討論,說說你的看法吧
?
個人中心
購物車
優(yōu)惠劵
今日簽到
有新私信 私信列表
搜索
主站蜘蛛池模板: 四子王旗| 家居| 竹山县| 大洼县| 新邵县| 长寿区| 青川县| 屏东市| 纳雍县| 广东省| 临颍县| 陆丰市| 清徐县| 黎城县| 五指山市| 吴旗县| 庐江县| 龙海市| 武义县| 启东市| 眉山市| 宜春市| 中阳县| 墨玉县| 延长县| 讷河市| 宽城| 卢龙县| 汝南县| 新宁县| 岑巩县| 屏边| 友谊县| 玛多县| 岐山县| 自贡市| 衡东县| 凤凰县| 曲麻莱县| 贵港市| 漠河县|