最新精品国偷自产在线,欧美日韩电影免费看,偷拍视屏一区

Ambari：用于配置、管理和監視Hadoop集群，基于Web，界面友好。

Kafka：高吞吐量的分布式發布訂閱消息系統，可以處理消費者規模的網站中的所有動作流數據（瀏覽，搜索等）。相對Hadoop的日志數據和離線分析，可以實現實時處理。目前通過Hadoop的并行加載機制來統一線上和離線的消息處理

lucene：全文檢索引擎的架構

jblas：一個快速的線性代數庫（JAVA）。基于BLAS與LAPACK，矩陣計算實際的行業標準，并使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現，使其非常快。

一、Linux

名詞解釋

Spark Streaming：一種構建在Spark上的實時計算框架，擴展了Spark處理大數據流式數據的能力。

Scala：一種類似java的完全面向對象的編程語言。

Spark GraphX： GraphX是Spark中用于圖和圖并行計算的API，可以在Spark之上提供一站式數據解決方案，可以方便且高效地完成圖計算的一整套流水作業。

Linux(shell,高并發架構,lucene,solr)

機器學習(R,mahout)

BLAS：基礎線性代數子程序庫，擁有大量已經編寫好的關于線性代數運算的程序。

R：用于統計分析、繪圖的語言和操作環境，目前有Hadoop-R

Storm：分布式，容錯的實時流式計算系統，可以用作實時分析，在線機器學習，信息流處理，連續性計算，分布式RPC，實時處理消息并更新數據庫。

Cloudera Flume：日志收集系統，支持在日志系統中定制各類數據發送方，用來收集數據。

Spark MLlib： MLlib是Spark是常用的機器學習算法的實現庫，目前(2014.05)支持二元分類，回歸，聚類以及協同過濾。同時也包括一個底層的梯度下降優化基礎算法。MLlib以來jblas線性代數庫，jblas本身以來遠程的Fortran程序。

Mahout：可擴展的機器學習和數據挖掘庫。用來做推薦挖掘，聚集，分類，頻繁項集挖掘。

Storm(Storm,kafka,redis)

kvm： (Keyboard Video Mouse)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)

五、Spark

Spark： Spark是在Scala語言中實現的類似于Hadoop MapReduce的通用并行框架，除了Hadoop MapReduce所具有的優點，但不同于MapReduce的是job中間輸出結果可以保存在內存中，從而不需要讀寫HDFS，因此Spark能更好的適用于數據挖掘與機器學習等需要迭代的MapReduce算法。可以和Hadoop文件系統并行運作，用過Mesos的第三方集群框架可以支持此行為。

Cloudera hue： web管理器，包括hue ui，hui server，hui db。hue提供所有CDH組件的shell界面的接口，可以在hue編寫mr。

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

solr：基于lucene的全文搜索服務器，實現了可配置、可擴展并對查詢性能進行了優化，并且提供了一個完善的功能管理界面。

yarn：可以理解為MapReduce的協調機制，本質就是Hadoop的處理分析機制，分為ResourceManager NodeManager。

MapReduce：軟件框架，編寫程序。

Redis：由c語言編寫，支持網絡、可基于內存亦可持久化的日志型、key-value型數據庫。

大數據學習資料分享群119599574

云計算平臺(docker,kvm,openstack)

學習路線

openstack：開源的云計算管理平臺項目

Cloudera Impala：對存儲在Apache Hadoop的HDFS，HBase的數據提供直接查詢互動的SQL。

HBase：數據庫。非常適合用來做大數據的實時查詢。Facebook用Hbase存儲消息數據并進行消息實時的分析