[2020年5月12日,北京] 亞馬遜云服務(wù)Amazon Web Services, Inc. (AWS) 今天宣布,Amazon SageMaker在由西云數(shù)據(jù)運(yùn)營(yíng)的AWS中國(guó) (寧夏) 區(qū)域和光環(huán)新網(wǎng)運(yùn)營(yíng)的AWS中國(guó)(北京)區(qū)域正式上線。Amazon SageMaker 是一項(xiàng)完全托管的服務(wù),可以幫助開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家快速地規(guī)?;瘶?gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí) (ML) 模型。Amazon SageMaker在中國(guó)的上線還使中國(guó)客戶獲得一系列新發(fā)布的工具,例如彈性Notebook、實(shí)驗(yàn)管理、模型自動(dòng)創(chuàng)建、模型調(diào)試分析,以及模型概念漂移檢測(cè)等強(qiáng)大功能,所有這些工具都封裝在首個(gè)面向機(jī)器學(xué)習(xí)的集成開(kāi)發(fā)環(huán)境(IDE) Amazon SageMaker Studio中。進(jìn)一步了解Amazon SageMaker,請(qǐng)?jiān)L問(wèn): https://www.amazonaws.cn/sagemaker/。
機(jī)器學(xué)習(xí)的實(shí)施是一項(xiàng)非常復(fù)雜的工作,涉及大量試錯(cuò),并且需要專業(yè)技能。開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家首先必須對(duì)數(shù)據(jù)進(jìn)行可視化、轉(zhuǎn)換和預(yù)處理,這些數(shù)據(jù)才能變成算法可以使用的格式,用以訓(xùn)練模型。即使是簡(jiǎn)單的模型,企業(yè)也需要花費(fèi)龐大的算力和大量的訓(xùn)練時(shí)間,并可能需要招聘專門(mén)的團(tuán)隊(duì)來(lái)管理包含多臺(tái)GPU服務(wù)器的訓(xùn)練環(huán)境。從選擇和優(yōu)化算法,到調(diào)節(jié)影響模型準(zhǔn)確性的數(shù)百萬(wàn)個(gè)參數(shù),訓(xùn)練模型的所有階段都需要大量的人力和猜測(cè)。然后,在應(yīng)用程序中部署訓(xùn)練好的模型時(shí),客戶又需要另一套應(yīng)用設(shè)計(jì)和分布式系統(tǒng)方面的專業(yè)技能。并且,隨著數(shù)據(jù)集和變量數(shù)的增加,模型會(huì)過(guò)時(shí),客戶又必須一次又一次地重新訓(xùn)練模型,讓模型從新的信息中學(xué)習(xí)和進(jìn)化。所有這些工作都需要大量的專業(yè)知識(shí),并耗費(fèi)龐大的算力、數(shù)據(jù)存儲(chǔ)和時(shí)間成本。而且,由于沒(méi)有集成化的工具用于整個(gè)機(jī)器學(xué)習(xí)的工作流,機(jī)器學(xué)習(xí)模型的傳統(tǒng)開(kāi)發(fā)方式是復(fù)雜、繁復(fù)和昂貴的。
Amazon SageMaker消除了機(jī)器學(xué)習(xí)過(guò)程中各個(gè)步驟的繁重工作。通過(guò)預(yù)置的Notebook、針對(duì)PB級(jí)數(shù)據(jù)集優(yōu)化的常用算法,以及自動(dòng)模型調(diào)優(yōu),Amazon SageMaker大大降低了模型構(gòu)建和訓(xùn)練的難度。并且,Amazon SageMaker顯著簡(jiǎn)化和加快了模型訓(xùn)練過(guò)程,可以通過(guò)自動(dòng)提供和管理基礎(chǔ)設(shè)施來(lái)訓(xùn)練模型和運(yùn)行推理。同時(shí),AWS 最近宣布了多項(xiàng)重要功能和高級(jí)特性,讓客戶能夠更輕松地構(gòu)建、訓(xùn)練、調(diào)優(yōu)和部署機(jī)器學(xué)習(xí)模型。這些功能包括:
?面向機(jī)器學(xué)習(xí)的集成開(kāi)發(fā)環(huán)境(IDE):Amazon SageMaker Studio將所有用于機(jī)器學(xué)習(xí)的組件集中在一個(gè)地方。跟使用集成開(kāi)發(fā)環(huán)境(IDE)做軟件開(kāi)發(fā)一樣,開(kāi)發(fā)者現(xiàn)在可以在Amazon SageMaker Studio中查看和組織源代碼、依賴項(xiàng)、文檔和其它應(yīng)用程序資產(chǎn),例如用于移動(dòng)應(yīng)用程序的圖像。當(dāng)前,機(jī)器學(xué)習(xí)工作流有大量組件,其中許多組件都帶有它們自己的一組各自獨(dú)立的工具。Amazon SageMaker Studio IDE為所有Amazon SageMaker功能和整個(gè)機(jī)器學(xué)習(xí)工作流提供了一個(gè)統(tǒng)一界面。Amazon SageMaker Studio為開(kāi)發(fā)者提供了創(chuàng)建項(xiàng)目文件夾、組織Notebook和數(shù)據(jù)集,以及協(xié)作討論Notebook和結(jié)果的功能。Amazon SageMaker Studio使構(gòu)建、訓(xùn)練、解釋、檢查、監(jiān)視、調(diào)試和運(yùn)行機(jī)器學(xué)習(xí)模型變得更簡(jiǎn)單、更快。
?彈性筆記本:Amazon SageMaker Notebooks提供了一鍵啟用的Jupyter Notebook,具有秒級(jí)的彈性計(jì)算提升能力。Notebooks包含了運(yùn)行或重新創(chuàng)建機(jī)器學(xué)習(xí)工作流所需的一切要素。在此之前,云服務(wù)器,要查看或運(yùn)行Notebook,開(kāi)發(fā)者需要在Amazon SageMaker中啟動(dòng)計(jì)算實(shí)例。如果他們發(fā)現(xiàn)需要更多的算力,必須啟動(dòng)一個(gè)新實(shí)例,轉(zhuǎn)移Notebook,關(guān)閉舊實(shí)例。而且,由于Notebook與計(jì)算實(shí)例是耦合的,通常存在于開(kāi)發(fā)者的工作站上,其共享和迭代協(xié)作很不容易。Amazon SageMaker Notebooks提供了彈性的Jupyter Notebook,讓開(kāi)發(fā)者可以輕松地調(diào)高或降低Notebook需要的算力(包括GPU加速)。這些調(diào)整在后臺(tái)自動(dòng)發(fā)生,不會(huì)打斷開(kāi)發(fā)者的工作。開(kāi)發(fā)者不再需要浪費(fèi)時(shí)間來(lái)關(guān)閉舊實(shí)例、在新實(shí)例中重新創(chuàng)建所有工作,云主機(jī),從而可以更快地開(kāi)始構(gòu)建模型。Amazon SageMaker Notebook還可以自動(dòng)復(fù)制特定環(huán)境和庫(kù)依賴項(xiàng),實(shí)現(xiàn)Notebook一鍵共享。這將使構(gòu)建模型的協(xié)作變得更容易,比如,一個(gè)工程師可以很容易地將手頭工作共享給其他工程師,讓他們?cè)诂F(xiàn)有工作的基礎(chǔ)上構(gòu)建模型。
?實(shí)驗(yàn)管理:Amazon SageMaker Experiments可以幫助開(kāi)發(fā)者組織和跟蹤機(jī)器學(xué)習(xí)模型的迭代。機(jī)器學(xué)習(xí)通常需要多次迭代,目的是隔離和衡量更改特定輸入時(shí)的增量影響。這些迭代過(guò)程可能會(huì)生成數(shù)百個(gè)實(shí)驗(yàn)構(gòu)件,如模型、訓(xùn)練數(shù)據(jù)和參數(shù)設(shè)置。但是,開(kāi)發(fā)者目前缺乏一個(gè)便利的實(shí)驗(yàn)管理機(jī)制,甚至不得不依賴電子表格來(lái)跟蹤實(shí)驗(yàn),手動(dòng)對(duì)這些構(gòu)件進(jìn)行排序,以了解對(duì)應(yīng)的影響。Amazon SageMaker Experiments自動(dòng)捕獲輸入?yún)?shù)、配置和結(jié)果,并將它們存儲(chǔ)為“實(shí)驗(yàn)”,幫助開(kāi)發(fā)者管理這些迭代。開(kāi)發(fā)者可以瀏覽活躍的實(shí)驗(yàn),根據(jù)特征搜索以前的實(shí)驗(yàn),回顧以前的實(shí)驗(yàn)結(jié)果,還能用可視化的方式比較實(shí)驗(yàn)結(jié)果。Amazon SageMaker Experiments也保留了實(shí)驗(yàn)的完整譜系,如果一個(gè)模型開(kāi)始偏離其預(yù)期結(jié)果,開(kāi)發(fā)者可以及時(shí)回溯和檢查。因此,Amazon SageMaker Experiments使開(kāi)發(fā)者更容易快速迭代和開(kāi)發(fā)高質(zhì)量的模型。