中國IDC圈3月30日報道,Impala是Cloudera公司主導開拓的新型查詢系統,它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數據。
Hadoop上的SQL引擎Impala是一種新型查詢系統基準,發明Spark和Hive在BI的事情負載中有本身的優勢與弱勢。
按照最新的基準,三個主要的SQL-on-Hadoop引擎,Apache Impala 2.3, Apache Spark 1.6 和Apache Hive 1.2,都有各自奇特的優勢和劣勢,這令他們能很好的適應一些BI用例,而不是其他智能。
“一個引擎是無法滿意所有需求的”,Dave Mariani,大局限AtScale的CEO和首創人,AtScale是一個專門在hadoop上實現BI的創新企業。“我們已經完成了部署,對付我們的客戶而言這是多個引擎的增補。”
關于在Hadoop基本上的貿易智能,AtScale輔佐技能評估者選擇最好的SQL –on-Hadoop技能,以輔佐他們完成BI用例。AtScale測試團隊利用星型架構基準(SSB)數據集,基于遍及利用的TPC-H數據(TPC-H是事務處理懲罰機能委員會發布的一套針對數據庫決定支持本領的測試基準),將其舉辦修改使之越發 準確的表示一個面向BI的數據機關。數據集答允數據團隊測試大型表的查詢:在線訂購表含有靠近6百萬行,大型客戶表含有高出十億行。
SQL-on-Hadoop引擎有差異的“甜區”事情負載
Mariani表明AtScale按照三個要害要求評價SQL-on-Hadoop引擎,以及它們的適應度是否能滿意BI事情負載。
在大數據上執行。SQL-on-Hadoop引擎必需可以或許持續不絕的闡明十億百億行數據,而且沒有生成錯誤,對呼吁的回響時間是10s可能是100s。
在小數據上速度快。引擎需要通報彼此表示到已知查詢模式,因此,
SQL-on-Hadoop引擎在處理懲罰小數據時,不高出幾秒鐘就能將功效返回。(小數據是指有著成千上百萬的呼吁行的數據)。
對用戶來說是不變的。企業級BI用戶的基本是由成百上千的數據事戀人員構成。SQL-on-Hadoop引擎必需在高度并行闡明的事情負載中運行靠得住。
Mariani率領團隊為雅虎的BI建設了大概是世界上最大的在線分層闡明!他相信這三個尺度是根基要求的代表,是企業在Hadoop上實現BI時城市碰著的。這個尺度,是測試團隊和大量行業企業相助得出的,包羅金融處事,醫療,零售,電信等。
“我們利用了真實世界的的履歷去形成文檔,每一個技能評估者可以將其作為是評估流程的一部門”。Josh Klahr增補,AtScale.出產部分副總裁。
測試團隊發明三個引擎都通過了測試,足夠不變去支持BI事情負載,可是一個引擎不能滿意所有需求。每個引擎都有本身的“甜區”,企業有大概去尋找所有引擎的混適用法,他們相信這有大概最適合他們的方針。
當Hive在逐漸思考SQL-on-Hadoop的默認值時,它將基準中引擎運行最慢的環境安排一邊,令其不能很好的共同彼此查詢。
“假如你利用Hive Tez作為你的彼此查詢引擎,你能做到的最佳是2.4秒”。Mariani 說。
可是它大概遲鈍,Hive也是三個引擎中最不變的,在多個查詢范例中有著最好的連貫性。
“Hive Tez就像烏龜。”. Mariani 說,“它老是能完成比賽,可是不是在壯觀,迅速的時尚下。可是它是最靠得住的。”
Impala和Spark,從好處方面來說,在處理懲罰小數據集時,他們是最好的。Impala會在大量的事情負載中包圍了Spark,可是Mariani提到Spark1.6對比Spark1.5有了龐大的機能改變,他但愿Spark能繼承保持這樣的成長趨勢,,因為Spark已經劃出一塊大的開源社區,存眷著它的成長。數據打點公司云紀元公司(Cloudera)最近打算捐贈Impala給Apache軟件基金會,這可覺得其成長增加勢頭。
此刻,Impala是用例的王者,它需要大量的用戶。
“Impala在并發上真的很棒,” Mariani 說,“假如你規劃擁有一大堆用戶,讓他們去利用小的快速的查詢,Impala對比Spark是更好的選擇。”
“假如速度不是最重要的,可是不變性和靠得住性很重要,我會選擇利用Hive Tez作為我的數據管線引擎”,他增補道,“對付那些需要大批處理懲罰的事情負載,我會選擇Hive Tez。假如我想要我的BI用戶接入我的數據客棧,我會利用Spark可能Impala。”
Mariani 提到,固然團隊不能把其他引擎作為基準,如Apache Drill可能 Apache Presto,可是他們會在下次實驗。
他說,“你永遠不知道引擎與引擎之間,誰將是可以作為賭注的更好的馬。”
解密Apache HAWQ ——成果強大的SQL-on-Hadoop引擎