在线成人av电影,91福利区在线观看,成人爽a毛片免费啪啪

大數(shù)據(jù)在經(jīng)濟發(fā)展中的重大意義，并不意味著它可以取代一切對社會問題的理性思考，科學(xué)發(fā)展的邏輯不能迷失在海量數(shù)據(jù)中。大數(shù)據(jù)技術(shù)體系龐大而復(fù)雜，基礎(chǔ)技術(shù)包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學(xué)習(xí)、并行計算和可視化等多種技術(shù)門類和不同技術(shù)水平。

一、數(shù)據(jù)存儲

Hadoop作為一個開源框架，是專門為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計的，而HDFS作為其核心存儲引擎，在數(shù)據(jù)存儲中得到了廣泛應(yīng)用。HBase是一個分布式的、面向列的開源數(shù)據(jù)庫，可以看作是hdfs的封裝，其本質(zhì)是數(shù)據(jù)存儲和NoSQL數(shù)據(jù)庫。HBase是一個Key/Value系統(tǒng)，部署在hdfs上，克服了hdfs在隨機讀寫方面的缺點。和hadoop一樣，Hbase主要依靠橫向擴展，通過增加廉價的商用服務(wù)器來增加計算和存儲容量。Phoenix相當(dāng)于一個Java中間件，它幫助開發(fā)工程師訪問NoSQL數(shù)據(jù)庫，就像使用JDBC訪問關(guān)系數(shù)據(jù)庫一樣。

大數(shù)據(jù)技術(shù)的核心包括哪些方面？

紗線是一個Hadoop資源管理器，可以為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。它的引入在利用率、統(tǒng)一資源管理和數(shù)據(jù)共享方面給集群帶來了巨大的好處。紗線由以下組件組成:全局資源管理器、資源管理器的每個節(jié)點代理的節(jié)點管理器、代表每個應(yīng)用程序的應(yīng)用程序，以及每個應(yīng)用程序主控器在節(jié)點管理器上運行多個容器。Mesos是一個開源的集群管理軟件，支持Hadoop、ElasticSearch、Spark、Storm和Kafka。Redis是一個速度非常快的非關(guān)系數(shù)據(jù)庫，可以存儲鍵和五種不同類型的值之間的映射，將內(nèi)存中存儲的鍵值對數(shù)據(jù)持久化到硬盤上，使用復(fù)制特性來擴展性能，還可以使用客戶端分片來擴展寫入性能。

Atlas是介于應(yīng)用程序和MySQL之間的中間件。在后端DB的視圖中，Atlas相當(dāng)于與其連接的一個客戶端，在前端應(yīng)用的視圖中，Atlas相當(dāng)于一個DB。Atlas作為服務(wù)器，與應(yīng)用程序進行通信，應(yīng)用程序?qū)崿F(xiàn)了MySQL的客戶端和服務(wù)器協(xié)議，與MySQL作為客戶端進行通信。它對應(yīng)用屏蔽了數(shù)據(jù)庫的細(xì)節(jié)，還維護了連接池，以減輕MySQL的負(fù)擔(dān)。啟動Atlas后，會創(chuàng)建多個線程，其中一個為主線程，其余為工作線程。主線程負(fù)責(zé)監(jiān)聽所有客戶端連接請求，而工作線程只監(jiān)聽主線程的命令請求。隨著互聯(lián)網(wǎng)科技的蓬勃發(fā)展，人工智能時代即將到來，所以抓住下一個窗口。幫助那些想向互聯(lián)網(wǎng)方向?qū)W習(xí)，但因為時間和資源不足而放棄的人。

Kudu是圍繞Hadoop生態(tài)系統(tǒng)構(gòu)建的存儲引擎。Kudu與Hadoop生態(tài)系統(tǒng)有著相同的設(shè)計理念。它運行在普通服務(wù)器上，可以大規(guī)模分布式部署，滿足行業(yè)高可用性要求。設(shè)計理念是對快速數(shù)據(jù)進行快速分析。作為一個開源存儲引擎，它可以提供低延遲的隨機讀寫和高效的數(shù)據(jù)分析。Kudu不僅提供了用于插入、更新和刪除的行級API，還提供了接近Parquet性能的批量掃描操作。使用相同的存儲不僅可以隨機讀寫，還可以滿足數(shù)據(jù)分析的要求。Kudu有廣泛的應(yīng)用，例如實時數(shù)據(jù)分析和數(shù)據(jù)可能變化的時間序列數(shù)據(jù)應(yīng)用。在數(shù)據(jù)存儲過程中，涉及的數(shù)據(jù)表有數(shù)百列，其中包括各種復(fù)雜的Query。建議采用拼花、ORC等列存儲方式壓縮數(shù)據(jù)。拼花地板可以支持靈活的壓縮選項，并顯著減少磁盤上的存儲。

二、數(shù)據(jù)查詢和分析

Hive的核心工作是將SQL語句翻譯成MR程序，可以將結(jié)構(gòu)化數(shù)據(jù)映射成數(shù)據(jù)庫表，并提供HQL(Hive SQL)查詢功能。Hive本身并不存儲和計算數(shù)據(jù)，它完全依賴于HDFS和MapReduce。Hive可以理解為一個客戶端工具，將SQL操作轉(zhuǎn)換成相應(yīng)的MapReduce作業(yè)，然后在hadoop上運行。Hive支持標(biāo)準(zhǔn)的SQL語法，這消除了用戶編寫MapReduce程序的需要。它的出現(xiàn)使精通SQL技能但不熟悉MapReduce、編程能力弱、不擅長Java語言的用戶能夠方便地在HDFS大規(guī)模數(shù)據(jù)集上查詢、匯總和分析數(shù)據(jù)。Hive是為批量處理大數(shù)據(jù)而誕生的。Hive的出現(xiàn)解決了傳統(tǒng)關(guān)系數(shù)據(jù)庫(MySql、Oracle)處理大數(shù)據(jù)的瓶頸。Hive將執(zhí)行計劃分為map-> shuffle-> reduce-> map-> shuffle-> reduce…如果一個查詢被編譯成多輪MapReduce，會有更多的中間結(jié)果。由于MapReduce執(zhí)行框架本身的特點，過多的中間進程會增加整個Query的執(zhí)行時間。在Hive的運行過程中，用戶只需要創(chuàng)建表、導(dǎo)入數(shù)據(jù)、編寫SQL分析語句。這個過程的其余部分由Hive框架自動完成。

大數(shù)據(jù)技術(shù)的核心包括哪些方面？

Impala是Hive的補充，可以實現(xiàn)高效的SQL查詢。Impala用于在Hadoop上實現(xiàn)SQL，對大數(shù)據(jù)進行實時查詢和分析。通過大家熟悉的傳統(tǒng)關(guān)系數(shù)據(jù)庫的SQL風(fēng)格來操作大數(shù)據(jù)，數(shù)據(jù)也可以存儲在HDFS和HBase中。Impala不再使用速度慢的Hive+MapReduce批處理，而是使用類似于商用并行關(guān)系數(shù)據(jù)庫中的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine組成)，可以直接查詢來自HDFS或HBase的數(shù)據(jù)，具有SELECT、JOIN和統(tǒng)計功能，大大降低了延遲。Impala將整個查詢分成一個執(zhí)行計劃樹，而不是一系列MapReduce任務(wù)。與Hive相比，Impala沒有MapReduce啟動時間。

Hive適合長期批量查詢分析，而Impala適合實時交互SQL查詢。Impala為數(shù)據(jù)人員提供了一個大數(shù)據(jù)分析工具，可以快速實驗和驗證他們的想法。先用Hive進行數(shù)據(jù)轉(zhuǎn)換，再用Impala對Hive處理的數(shù)據(jù)集進行快速數(shù)據(jù)分析。一般來說，Impala將執(zhí)行計劃表示為一個完整的執(zhí)行計劃樹，可以更自然地將執(zhí)行計劃分配給每個Impala來執(zhí)行查詢，而不是像Hive那樣組合成流水線映射->reduce模式，從而保證Impala具有更好的并發(fā)性，避免不必要的中間排序和洗牌。然而，Impala并不支持UDF，它所能處理的問題也有一定的局限性。Spark具有Hadoop MapReduce的特點，它將Job的中間輸出結(jié)果保存在內(nèi)存中，因此不需要讀取HDFS。Spark支持內(nèi)存分布式數(shù)據(jù)集，不僅可以提供交互式查詢，還可以優(yōu)化迭代工作負(fù)載。Spark是用Scala語言實現(xiàn)的，它使用Scala作為應(yīng)用框架。與Hadoop不同，Spark和Scala可以緊密集成，其中Scala可以像本地收集對象一樣輕松操作分布式數(shù)據(jù)集。Nutch是一個開源的Java搜索引擎。它提供了我們運行自己的搜索引擎所需的所有工具，包括全文搜索和網(wǎng)絡(luò)爬蟲。

Solr是一個用Java編寫的全文搜索服務(wù)器，運行在Servlet容器(如Apache Tomcat或Jetty)中。它提供了類似Web-service的API接口，用戶可以通過http請求向搜索引擎服務(wù)器提交一定格式的XML文件，生成索引。也可以通過Http Get操作進行搜索請求，得到XML格式的返回結(jié)果。Elasticsearch是一個開源全文搜索引擎，基于Lucene搜索服務(wù)器，能夠快速存儲、搜索和分析海量數(shù)據(jù)。它專為云計算而設(shè)計，可以實現(xiàn)實時搜索，穩(wěn)定、可靠、快速，并且易于安裝和使用。它還涉及一些機器學(xué)習(xí)語言。例如，Mahout的主要目標(biāo)是創(chuàng)建一些可擴展的機器學(xué)習(xí)算法，供開發(fā)人員在Apache的許可下免費使用。深度學(xué)習(xí)框架Caffe，使用數(shù)據(jù)流圖進行數(shù)值計算的開源軟件庫TensorFlow，以及其他常用的機器學(xué)習(xí)算法，如貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、協(xié)同過濾等。

三、數(shù)據(jù)采集和預(yù)處理

對于來自各種來源的數(shù)據(jù)，包括移動互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)等。這些海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)是分散的，也就是所謂的數(shù)據(jù)孤島。這個時候，這些數(shù)據(jù)就沒有意義了。數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入數(shù)據(jù)倉庫，將分散的數(shù)據(jù)整合在一起，對這些數(shù)據(jù)進行綜合分析。數(shù)據(jù)收集包括文件日志收集、數(shù)據(jù)庫日志收集、關(guān)系數(shù)據(jù)庫訪問和應(yīng)用程序訪問等。當(dāng)數(shù)據(jù)量相對較少時，可以編寫一個正則腳本將日志寫入存儲系統(tǒng)。但是隨著數(shù)據(jù)量的增加，這些方法無法提供數(shù)據(jù)安全，操作維護難度大，需要更強的解決方案。

大數(shù)據(jù)技術(shù)的核心包括哪些方面？

作為一個實時日志采集系統(tǒng)，F(xiàn)lume NG支持在日志系統(tǒng)中定制各種數(shù)據(jù)發(fā)送器進行數(shù)據(jù)采集，同時對數(shù)據(jù)進行簡單處理后寫入各種數(shù)據(jù)接收器(如text、HDFS、Hbase等)。水槽NG采用三層:藥劑層、收集器層和儲存層，每層均可水平展開。代理包括源、通道和接收器。Source用于將數(shù)據(jù)源消費(收集)到通道組件中，channel作為中間臨時存儲來存儲source的所有組件信息。接收器從通道讀取數(shù)據(jù)，并在成功讀取后刪除通道中的信息。網(wǎng)易數(shù)據(jù)運河NDC，字面意思是網(wǎng)易數(shù)據(jù)運河系統(tǒng)，是一個用于實時數(shù)據(jù)遷移、同步和訂閱結(jié)構(gòu)化數(shù)據(jù)庫的平臺解決方案。它集成了網(wǎng)易過去在數(shù)據(jù)傳輸領(lǐng)域的各種工具和經(jīng)驗，通過數(shù)據(jù)鏈路將單機數(shù)據(jù)庫、分布式數(shù)據(jù)庫、OLAP系統(tǒng)和下游應(yīng)用連接在一起。除了確保高效的數(shù)據(jù)傳輸，NDC的設(shè)計遵循統(tǒng)一和平臺化的理念。

Logstash是一個開源的服務(wù)器端數(shù)據(jù)處理管道，可以同時從多個來源收集和轉(zhuǎn)換數(shù)據(jù)，然后將數(shù)據(jù)發(fā)送到您最喜歡的“存儲庫”。一個常見的存儲庫是Elasticsearch。Logstash支持各種輸入選項，可以同時從許多常見的數(shù)據(jù)源中捕獲事件，并且可以以連續(xù)流模式輕松地從您的日志、指示器、Web應(yīng)用程序、數(shù)據(jù)存儲和各種AWS服務(wù)中收集數(shù)據(jù)。Sqoop是一種在關(guān)系數(shù)據(jù)庫和Hadoop之間傳輸數(shù)據(jù)的工具。它可以將關(guān)系數(shù)據(jù)庫(如Mysql和Oracle)中的數(shù)據(jù)導(dǎo)入Hadoop(如HDFS、Hive和Hbase)，也可以將Hadoop(如HDFS、Hive和Hbase)中的數(shù)據(jù)導(dǎo)入關(guān)系數(shù)據(jù)庫(如Mysql和Oracle)。Sqoop使MapReduce作業(yè)(容錯能力極強的分布式并行計算)能夠執(zhí)行任務(wù)。Sqoop的另一個優(yōu)勢是，它傳輸大量結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的過程是完全自動化的。

流媒體計算是行業(yè)研究的熱點。流計算可以實時清理、聚合和分析多個高吞吐量的數(shù)據(jù)源，能夠快速處理和反饋社交網(wǎng)站、新聞等存在的數(shù)據(jù)流。目前有很多大數(shù)據(jù)流分析工具，比如開源的strom、spark streaming等等。Strom集群結(jié)構(gòu)是由一個主節(jié)點(nimbus)和多個工作節(jié)點(supervisors)組成的主從結(jié)構(gòu)。主節(jié)點由配置靜態(tài)指定，或者在運行時動態(tài)選擇。nimbus和supervisor是Storm提供的后臺守護程序，它們之間的通信是結(jié)合Zookeeper的狀態(tài)變化通知和監(jiān)控通知來處理的。nimbus process的主要職責(zé)是管理、協(xié)調(diào)和監(jiān)控集群上運行的拓?fù)?包括拓?fù)浒l(fā)布、任務(wù)分配、事件處理過程中的任務(wù)重新分配等)。在等待nimbus分配任務(wù)后，supervisor進程生成并監(jiān)控由worker(jvm進程)執(zhí)行的任務(wù)。主管和工作人員在不同的JVM上運行。如果由主管啟動的工作進程由于錯誤而退出(或被終止)，主管將嘗試重新生成一個新的工作進程。

當(dāng)使用上游模塊的數(shù)據(jù)進行計算、統(tǒng)計和分析時，我們可以使用消息系統(tǒng)，尤其是分布式消息系統(tǒng)。Scala編寫的Kafka是一個基于發(fā)布/訂閱的分布式消息系統(tǒng)。卡夫卡的設(shè)計理念之一是同時提供離線處理和實時處理，并將數(shù)據(jù)實時備份到另一個數(shù)據(jù)中心。卡夫卡可以有許多生產(chǎn)者和消費者共享多個主題，并以主題為單位總結(jié)信息。卡夫卡發(fā)布消息的節(jié)目叫制作人，也叫制作人，訂閱話題消費消息的節(jié)目叫消費人，也叫消費者。當(dāng)Kafka以集群模式運行時，它可以由一個服務(wù)或多個服務(wù)組成，每個服務(wù)稱為一個代理。在運行過程中，生產(chǎn)者通過網(wǎng)絡(luò)向卡夫卡集群發(fā)送消息，集群向消費者提供消息。卡夫卡通過動物園管理員管理集群配置，選舉領(lǐng)導(dǎo)者，并在消費群體發(fā)生變化時進行再平衡。生產(chǎn)者使用推模式向代理發(fā)布消息，消費者使用拉模式從代理訂閱和消費消息。卡夫卡可以和弗魯姆一起工作。如果需要將流數(shù)據(jù)從Kafka傳輸?shù)絟adoop，可以使用Flume代理，使用Kafka作為源，這樣就可以將數(shù)據(jù)從Kafka讀取到Hadoop。

大數(shù)據(jù)技術(shù)的核心包括哪些方面？

Zookeeper是一個分布式、開源的分布式應(yīng)用協(xié)調(diào)服務(wù)，提供數(shù)據(jù)同步服務(wù)。它的主要功能是配置管理、名稱服務(wù)、分布式鎖和集群管理。配置是指在一個地方對配置進行修改，讓所有對這個地方的配置感興趣的人都可以更改，免去了繁瑣的手動復(fù)制配置，保證了數(shù)據(jù)的可靠性和一致性。同時可以通過名稱獲取資源或服務(wù)的地址等信息，監(jiān)控集群中機器的變化，實現(xiàn)類似心跳機制的功能。

四、數(shù)據(jù)可視化

對接一些BI平臺，將分析得到的數(shù)據(jù)可視化，可以用來指導(dǎo)決策服務(wù)。主流BI平臺，如敏捷BI Tableau、Qlikview、PowrerBI等。國外，SmallBI和國內(nèi)新興的網(wǎng)易等。在上述每個階段，確保數(shù)據(jù)安全都是一個不容忽視的問題。Kerberos是一種基于網(wǎng)絡(luò)身份驗證的協(xié)議，用于在不安全的網(wǎng)絡(luò)中以安全的方式驗證個人通信。它允許一個實體在不安全的網(wǎng)絡(luò)環(huán)境中進行通信，并以安全的方式向另一個實體證明其身份。控制權(quán)限的Ranger是一個Hadoop集群權(quán)限框架，為操作、監(jiān)控和管理復(fù)雜數(shù)據(jù)提供權(quán)限，它提供了一個集中的管理機制來管理基于紗的Hadoop生態(tài)系統(tǒng)中的所有數(shù)據(jù)權(quán)限。它可以對Hive、Hbase等Hadoop生態(tài)組件進行細(xì)粒度的數(shù)據(jù)訪問控制。通過操作Ranger控制臺，管理員可以輕松配置策略來控制用戶對HDFS文件夾、HDFS文件、數(shù)據(jù)庫、表和字段的訪問。這些策略可以針對不同的用戶和組進行設(shè)置，權(quán)限可以與hadoop無縫對接。

五、數(shù)據(jù)清理

MapReduce作為Hadoop的查詢引擎，用于大規(guī)模數(shù)據(jù)集的并行計算。“地圖”和“減少”是它的主要思想。程序員在分布式系統(tǒng)中運行程序非常方便，無需分布式并行編程。隨著業(yè)務(wù)數(shù)據(jù)的增加，需要訓(xùn)練和清理的數(shù)據(jù)會越來越復(fù)雜。此時，需要一個任務(wù)調(diào)度系統(tǒng)，如oozie或azkaban，來調(diào)度和監(jiān)控關(guān)鍵任務(wù)。Oozie是一個面向Hadoop平臺的工作流調(diào)度引擎，提供RESTful API接口接受用戶的提交請求(提交工作流作業(yè))。提交工作流后，工作流引擎負(fù)責(zé)工作流的執(zhí)行和狀態(tài)轉(zhuǎn)換。用戶在HDFS上部署作業(yè)(MR作業(yè))，然后將工作流提交給Oozie，后者以異步方式將作業(yè)(MR作業(yè))提交給Hadoop。這就是為什么在調(diào)用ozie的RESTful接口提交作業(yè)后，可以立即返回一個JobId，用戶程序不必等待作業(yè)執(zhí)行(因為有些大型作業(yè)可能會執(zhí)行很長時間(幾個小時甚至幾天)。Oozie將工作流對應(yīng)的Action異步提交給hadoop，在后臺執(zhí)行。

阿茲卡班也是一種工作流控制引擎，可以用來解決hadoop或spark等多個離線計算任務(wù)之間的依賴問題。阿茲卡班主要由三部分組成:關(guān)系數(shù)據(jù)庫、阿茲卡班Web服務(wù)器和阿茲卡班執(zhí)行器服務(wù)器。阿茲卡班將大部分狀態(tài)信息保存在MySQL中，阿茲卡班Web Server提供Web UI，這是阿茲卡班的主要管理器，包括工作流執(zhí)行過程中的項目管理、身份驗證、調(diào)度和監(jiān)控。阿茲卡班執(zhí)行器服務(wù)器用于調(diào)度工作流和任務(wù)，記錄工作流或任務(wù)的日志。計算任務(wù)的處理平臺Sloth是網(wǎng)易首個自主研發(fā)的流媒體計算平臺，旨在滿足公司各類產(chǎn)品對流媒體計算日益增長的需求。作為一個計算服務(wù)平臺，它易用、實時、可靠，節(jié)省了用戶在技術(shù)(開發(fā)、運維)上的投入，幫助用戶專注于解決產(chǎn)品本身的流媒體計算需求。有不懂的請咨詢夢飛云idc了解。

文章鏈接： http://www.qzkangyuan.com/3268.html

文章標(biāo)題：大數(shù)據(jù)技術(shù)的核心包括哪些方面？

文章版權(quán)：夢飛科技所發(fā)布的內(nèi)容，部分為原創(chuàng)文章，轉(zhuǎn)載請注明來源，網(wǎng)絡(luò)轉(zhuǎn)載文章如有侵權(quán)請聯(lián)系我們！

聲明：本站所有文章，如無特殊說明或標(biāo)注，均為本站原創(chuàng)發(fā)布。任何個人或組織，在未征得本站同意時，禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺。如若本站內(nèi)容侵犯了原著者的合法權(quán)益，可聯(lián)系我們進行處理。

{{userData.name}}已認(rèn)證

大數(shù)據(jù)技術(shù)的核心包括哪些方面？

什么是1U、2U、4U、42U服務(wù)器？

什么是數(shù)據(jù)泄露？企業(yè)如何防止數(shù)據(jù)泄露？

美國服務(wù)器防止黑客攻擊的策略

美國服務(wù)器手動設(shè)置DNS的步驟和技巧

IP無法訪問的原因

美國服務(wù)器遭遇黑客攻擊的解決方法

馬來西亞云主機：吉隆坡五星機房坐鎮(zhèn)，超 600G 出口帶寬，連接國內(nèi)更暢通

關(guān)于我們

聯(lián)系我們

用戶協(xié)議

提交建議

開通會員

積分福利

本站商城

圈子交流

申請友鏈

廣告合作

文章創(chuàng)作

推廣中心

欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

{{userData.name}}已認(rèn)證

什么是1U、2U、4U、42U服務(wù)器？

什么是數(shù)據(jù)泄露？企業(yè)如何防止數(shù)據(jù)泄露？

美國服務(wù)器防止黑客攻擊的策略

美國服務(wù)器手動設(shè)置DNS的步驟和技巧

IP無法訪問的原因

美國服務(wù)器遭遇黑客攻擊的解決方法

馬來西亞云主機：吉隆坡五星機房坐鎮(zhèn)，超 600G 出口帶寬，連接國內(nèi)更暢通

關(guān)于我們

聯(lián)系我們

用戶協(xié)議

提交建議

開通會員

積分福利

本站商城

圈子交流

申請友鏈

廣告合作

文章創(chuàng)作

推廣中心