欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務器

云技術(shù)

Spark SQL性能提升17.7倍是如何實現(xiàn)的?

互聯(lián)網(wǎng)運營商等大規(guī)模、超大規(guī)模用戶中,Spark是最受歡迎的大數(shù)據(jù)系統(tǒng),Spark對于內(nèi)存依賴性很強,所以當負載提高時,硬件平臺的內(nèi)存挑戰(zhàn)就會十分明顯,浪潮為國內(nèi)最大的語音識別服務提供商引入了Intel傲騰內(nèi)存,經(jīng)過整體優(yōu)化測試,整體性能提高了17.7倍。

挑戰(zhàn):內(nèi)存規(guī)模限制使 Spark 優(yōu)勢無法充分發(fā)揮

Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎,常用來構(gòu)建大型、低延遲的數(shù)據(jù)分析應用程序。Spark一個主要特點在于,其能夠在內(nèi)存中進行計算,這使得其數(shù)據(jù)分析效率往往高于其它計算引擎,但是,服務器內(nèi)存資源的限制也使得其性能的擴展存在著一定的瓶頸,在超大規(guī)模負載中無法充分發(fā)揮其利用內(nèi)存進行計算的性能優(yōu)勢。

某全球領先的語音識別服務提供商是最早將Spark應用到生產(chǎn)環(huán)境的團隊之一,該公司的語音云通過幾千臺服務器構(gòu)成的云計算平臺向用戶提供多樣的、實時語音處理能力,日均服務終端用戶超過15億,日增數(shù)據(jù)超過100TB。

2014年該公司基于Spark和AI技術(shù)構(gòu)建了DMP大數(shù)據(jù)平臺(用戶數(shù)據(jù)管理平臺)。DMP平臺的主要功能就是收集、存儲、分析和挖掘龐大的用戶數(shù)據(jù),以實現(xiàn)廣告精準投放。

客戶業(yè)務邏輯結(jié)構(gòu)圖

Spark在該公司的大數(shù)據(jù)平臺中主要用于海量用戶數(shù)據(jù)分析,每天支撐穩(wěn)定運行的Spark SQL統(tǒng)計分析指標和SQL腳本有幾千個。但是在將Spark SQL用于海量用戶數(shù)據(jù)分析的過程中,仍然面臨著一些痛點,這些都限制了該公司語音云的數(shù)據(jù)分析能力。

Spark的性能不僅受到CPU、內(nèi)存、網(wǎng)絡、磁盤等硬件設備的制約,而且SparkSQL目前還不支持索引,也嚴重影響了Spark SQL在進行大規(guī)模數(shù)據(jù)分析時的性能,索引能夠提升數(shù)據(jù)檢索的效率,降低硬盤的IO瓶頸;

l 隨著數(shù)據(jù)量越來越大,即席分析的需求越來越強烈,即席查詢是用戶根據(jù)用戶自己的需求,靈活選擇查詢條件,系統(tǒng)能夠根據(jù)用戶的選擇生成響應的統(tǒng)計報表和結(jié)果集;在數(shù)據(jù)倉庫和大數(shù)據(jù)分析系統(tǒng)中,即席查詢使用的越多,對系統(tǒng)的性能要求也就越高,如果內(nèi)存能夠緩存更多的熱點數(shù)據(jù),能夠極大的提升即席查詢處理速度并降低響應延遲;

l 數(shù)據(jù)既有隨機讀的需求(即席查詢-Ad-hoc),又有全表掃描的需求(機器學習);機器學習就是通過特定算法從海量的歷史數(shù)據(jù)中學習規(guī)律,從而對新的樣本進行分析并對未來做出預測,在模型訓練的過程中會產(chǎn)生大量的中間結(jié)果數(shù)據(jù),通常情況下需要將中間結(jié)果數(shù)據(jù)持久化到文件系統(tǒng)上,如果內(nèi)存能夠緩存更多的中間結(jié)果數(shù)據(jù),可以提升模型訓練的速度;

案例分析:浪潮助力語音云分析能力

隨著大數(shù)據(jù)的技術(shù)的逐漸成熟已經(jīng)數(shù)據(jù)量的爆發(fā),使得數(shù)據(jù)分析顯得更為重要,互聯(lián)網(wǎng)用戶需要強大的計算性能。作為英特爾的重要戰(zhàn)略合作伙伴,浪潮為用戶針對互聯(lián)網(wǎng)IDC(Internet Data Center)、云計算、企業(yè)市場以及電信業(yè)務應用等需求,基于全新一代英特爾®至強®可擴展處理器設計了一款2U 2路機架服務器NF5280M5服務器。該產(chǎn)品滿足更多業(yè)務對網(wǎng)絡帶寬、高計算性能、大內(nèi)存容量的要求,同時對密度和計算性能有較高需求并對存儲有一定要求的客戶提供了很好的解決方案

與全新一代英特爾®至強®可擴展處理器CascadeLake一同上市的英特爾®傲騰™ 數(shù)據(jù)中心級持久內(nèi)存,可能會很好的解決這個問題,傲騰內(nèi)存的單設備最大容量達到512GB,歐洲服務器租用,遠超DRAM 內(nèi)存的128GB,這使得其可以將系統(tǒng)內(nèi)存最大擴展至6TB(不包括系統(tǒng)自身內(nèi)存)。而且,傲騰內(nèi)存的單位容量價格要遠低于DRAM 內(nèi)存,這些特性支持企業(yè)在數(shù)據(jù)中心部署更大、更經(jīng)濟的數(shù)據(jù)集,在大型內(nèi)存池中獲得新的洞察。

為了解決語音云在Spark SQL數(shù)據(jù)分析過程中面臨的痛點,該公司采用浪潮NF5280M5與傲騰內(nèi)存,并輔以英特爾OAP軟件—優(yōu)化分析包。OAP旨在為Spark SQL加速Ad-hoc查詢。OAP定義了一種新的類Parquet文件列數(shù)據(jù)存儲格式,可以在內(nèi)存以及傲騰內(nèi)存中以Fiber為單位提供細粒度的分層緩存機制。更重要的,OAP擴展了Spark SQL DDL,允許用戶根據(jù)關系定義自定義索引。OAP通過將數(shù)據(jù)緩存到Executor的堆外內(nèi)存(傲騰內(nèi)存)中,加速Ad-hoc。

為了驗證傲騰內(nèi)存在該公司語音云數(shù)據(jù)分析中的使用效果,我們在實際的方案部署中,選用了浪潮5280M5與傲騰內(nèi)存的強強組合,分別測試基于傲騰內(nèi)存/ DRAM 內(nèi)存兩種配置下的性能對比。我們部署了5臺浪潮NF5280M5服務器,其中1臺用于Spark的Master節(jié)點,另外4臺用于Spark的worker節(jié)點,每個worker節(jié)點部署4根128GB傲騰內(nèi)存。部署架構(gòu)如下:

測試方案架構(gòu)圖

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務器租用 夢飛云服務器租用 版權(quán)所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 伊宁市| 确山县| 扶沟县| 谷城县| 保亭| 星座| 湘西| 广安市| 泗水县| 定襄县| 共和县| 兴山县| 定安县| 鲜城| 宜昌市| 都昌县| 那坡县| 固原市| 新巴尔虎左旗| 诏安县| 灵山县| 资中县| 陇西县| 都江堰市| 中牟县| 福州市| 五河县| 张家川| 奇台县| 仪征市| 长岭县| 云林县| 靖边县| 民权县| 如东县| 瑞丽市| 富阳市| 遂平县| 天门市| 乌鲁木齐市| 修武县|