什么是Apache Spark?
對工程師而言,Spark提供了一個簡單的方式在集群之間并行化這些應用,隱藏了分布式系統、網絡通信和容錯處理的復雜性。系統使得工程師在實現任務的同時,有充足的權限監控、檢查和調整應用。API的模塊特性使得重用已有工作和本地測試變得簡單。
給大家分享一下Spark是什么?如何用Spark進行數據分析,對大數據感興趣的小伙伴就隨著小編一起來了解一下吧。
Spark被設計的高度易訪問,用Python、Java、Scala和SQL提供簡單的API,而且提供豐富的內建庫。Spark也與其他大數據工具進行了集成。特別地,Spark可以運行在Hadoop的集群上,可以訪問任何Hadoop的數據源,包括Cassandra。
Spark用戶使用Spark作為其數據處理應用,因為他提供了豐富的功能,易于學習和使用,而且成熟可靠。如果你已經做好準備,那么就立即開始行動吧!
MLlibSpark包含一個叫做MLlib的關于機器學習的庫。MLlib提供多種類型的機器學習算法,包括分類、回歸、聚類和協同過濾,并支持模型評估和數據導入功能。MLlib也提供一個低層的機器學習原語,包括一個通用的梯度下降優化算法。所有這些方法都可以應用到一個集群上。
Spark通過若干組件支持不同的數據科學任務。Spark shell使得用Python或Scala進行交互式數據分析變得簡單。Spark SQL也有一個獨立的SQL shell,可以用SQL進行數據分析,也可以在Spark程序中或Spark shell中使用Spark SQL。MLlib庫支持機器學習和數據分析。而且,支持調用外部的MATLAB或R語言編寫的程序。Spark使得數據科學家可以用R或Pandas等工具處理包含大量數據的問題。