[2020年5月12日,北京] 亞馬遜云服務Amazon Web Services, Inc. (AWS) 今天宣布,Amazon SageMaker在由西云數(shù)據(jù)運營的AWS中國 (寧夏) 區(qū)域和光環(huán)新網(wǎng)運營的AWS中國(北京)區(qū)域正式上線。Amazon SageMaker 是一項完全托管的服務,可以幫助開發(fā)者和數(shù)據(jù)科學家快速地規(guī)模化構(gòu)建、訓練和部署機器學習 (ML) 模型。Amazon SageMaker在中國的上線還使中國客戶獲得一系列新發(fā)布的工具,例如彈性Notebook、實驗管理、模型自動創(chuàng)建、模型調(diào)試分析,以及模型概念漂移檢測等強大功能,所有這些工具都封裝在首個面向機器學習的集成開發(fā)環(huán)境(IDE) Amazon SageMaker Studio中。進一步了解Amazon SageMaker,請訪問: https://www.amazonaws.cn/sagemaker/。
機器學習的實施是一項非常復雜的工作,涉及大量試錯,并且需要專業(yè)技能。開發(fā)者和數(shù)據(jù)科學家首先必須對數(shù)據(jù)進行可視化、轉(zhuǎn)換和預處理,這些數(shù)據(jù)才能變成算法可以使用的格式,用以訓練模型。即使是簡單的模型,企業(yè)也需要花費龐大的算力和大量的訓練時間,并可能需要招聘專門的團隊來管理包含多臺GPU服務器的訓練環(huán)境。從選擇和優(yōu)化算法,到調(diào)節(jié)影響模型準確性的數(shù)百萬個參數(shù),訓練模型的所有階段都需要大量的人力和猜測。然后,在應用程序中部署訓練好的模型時,客戶又需要另一套應用設計和分布式系統(tǒng)方面的專業(yè)技能。并且,隨著數(shù)據(jù)集和變量數(shù)的增加,模型會過時,客戶又必須一次又一次地重新訓練模型,讓模型從新的信息中學習和進化。所有這些工作都需要大量的專業(yè)知識,并耗費龐大的算力、數(shù)據(jù)存儲和時間成本。而且,由于沒有集成化的工具用于整個機器學習的工作流,機器學習模型的傳統(tǒng)開發(fā)方式是復雜、繁復和昂貴的。
Amazon SageMaker消除了機器學習過程中各個步驟的繁重工作。通過預置的Notebook、針對PB級數(shù)據(jù)集優(yōu)化的常用算法,以及自動模型調(diào)優(yōu),Amazon SageMaker大大降低了模型構(gòu)建和訓練的難度。并且,Amazon SageMaker顯著簡化和加快了模型訓練過程,可以通過自動提供和管理基礎設施來訓練模型和運行推理。同時,AWS 最近宣布了多項重要功能和高級特性,讓客戶能夠更輕松地構(gòu)建、訓練、調(diào)優(yōu)和部署機器學習模型。這些功能包括:
?面向機器學習的集成開發(fā)環(huán)境(IDE):Amazon SageMaker Studio將所有用于機器學習的組件集中在一個地方。跟使用集成開發(fā)環(huán)境(IDE)做軟件開發(fā)一樣,開發(fā)者現(xiàn)在可以在Amazon SageMaker Studio中查看和組織源代碼、依賴項、文檔和其它應用程序資產(chǎn),例如用于移動應用程序的圖像。當前,機器學習工作流有大量組件,其中許多組件都帶有它們自己的一組各自獨立的工具。Amazon SageMaker Studio IDE為所有Amazon SageMaker功能和整個機器學習工作流提供了一個統(tǒng)一界面。Amazon SageMaker Studio為開發(fā)者提供了創(chuàng)建項目文件夾、組織Notebook和數(shù)據(jù)集,以及協(xié)作討論Notebook和結(jié)果的功能。Amazon SageMaker Studio使構(gòu)建、訓練、解釋、檢查、監(jiān)視、調(diào)試和運行機器學習模型變得更簡單、更快。
?彈性筆記本:Amazon SageMaker Notebooks提供了一鍵啟用的Jupyter Notebook,具有秒級的彈性計算提升能力。Notebooks包含了運行或重新創(chuàng)建機器學習工作流所需的一切要素。在此之前,云服務器,要查看或運行Notebook,開發(fā)者需要在Amazon SageMaker中啟動計算實例。如果他們發(fā)現(xiàn)需要更多的算力,必須啟動一個新實例,轉(zhuǎn)移Notebook,關(guān)閉舊實例。而且,由于Notebook與計算實例是耦合的,通常存在于開發(fā)者的工作站上,其共享和迭代協(xié)作很不容易。Amazon SageMaker Notebooks提供了彈性的Jupyter Notebook,讓開發(fā)者可以輕松地調(diào)高或降低Notebook需要的算力(包括GPU加速)。這些調(diào)整在后臺自動發(fā)生,不會打斷開發(fā)者的工作。開發(fā)者不再需要浪費時間來關(guān)閉舊實例、在新實例中重新創(chuàng)建所有工作,云主機,從而可以更快地開始構(gòu)建模型。Amazon SageMaker Notebook還可以自動復制特定環(huán)境和庫依賴項,實現(xiàn)Notebook一鍵共享。這將使構(gòu)建模型的協(xié)作變得更容易,比如,一個工程師可以很容易地將手頭工作共享給其他工程師,讓他們在現(xiàn)有工作的基礎上構(gòu)建模型。
?實驗管理:Amazon SageMaker Experiments可以幫助開發(fā)者組織和跟蹤機器學習模型的迭代。機器學習通常需要多次迭代,目的是隔離和衡量更改特定輸入時的增量影響。這些迭代過程可能會生成數(shù)百個實驗構(gòu)件,如模型、訓練數(shù)據(jù)和參數(shù)設置。但是,開發(fā)者目前缺乏一個便利的實驗管理機制,甚至不得不依賴電子表格來跟蹤實驗,手動對這些構(gòu)件進行排序,以了解對應的影響。Amazon SageMaker Experiments自動捕獲輸入?yún)?shù)、配置和結(jié)果,并將它們存儲為“實驗”,幫助開發(fā)者管理這些迭代。開發(fā)者可以瀏覽活躍的實驗,根據(jù)特征搜索以前的實驗,回顧以前的實驗結(jié)果,還能用可視化的方式比較實驗結(jié)果。Amazon SageMaker Experiments也保留了實驗的完整譜系,如果一個模型開始偏離其預期結(jié)果,開發(fā)者可以及時回溯和檢查。因此,Amazon SageMaker Experiments使開發(fā)者更容易快速迭代和開發(fā)高質(zhì)量的模型。