亞馬遜云科技推出八項Amazon SageMaker全新功能
2022年12月5日 亞馬遜云科技在2022 re:Invent全球大會(huì )上宣布,為端到端機器學(xué)習服務(wù)Amazon SageMaker 推出八項新功能。眾多開(kāi)發(fā)人員、數據科學(xué)家和業(yè)務(wù)分析師使用 Amazon SageMaker 提供的全托管基礎設施、工具和工作流,輕松快速地構建、訓練和部署機器學(xué)習模型??蛻?hù)使用機器學(xué)習不斷創(chuàng )新,他們創(chuàng )建的模型比以往任何時(shí)候都多,因此,他們需要高級功能來(lái)有效管理模型的開(kāi)發(fā)、使用和性能。本次發(fā)布包括新的 Amazon SageMaker 治理功能,它可以在整個(gè)機器學(xué)習生命周期中提供對模型性能的可見(jiàn)性。新的 Amazon SageMaker Studio Notebook 功能提供了增強的Notebook體驗,讓客戶(hù)只需點(diǎn)擊幾下即可檢查和解決數據質(zhì)量問(wèn)題,促進(jìn)數據科學(xué)團隊之間的實(shí)時(shí)協(xié)作,通過(guò)將Notebook代碼轉變到自動(dòng)化作業(yè)加速機器學(xué)習實(shí)驗到生產(chǎn)的過(guò)程。最后,Amazon SageMaker新功能可自動(dòng)執行模型驗證,并且讓地理空間數據處理變得更容易。
本文引用地址:http://dyxdggzs.com/article/202212/441242.htm
“當前,數以萬(wàn)計各種規模和各行各業(yè)的客戶(hù)都在使用 Amazon SageMaker。亞馬遜云科技客戶(hù)每個(gè)月都在構建數百萬(wàn)個(gè)模型、訓練數十億參數規模的模型、生成數萬(wàn)億個(gè)預測。 許多客戶(hù)正在以幾年前聞所未聞的規模使用機器學(xué)習?!?strong>亞馬遜云科技人工智能和機器學(xué)習副總裁Bratin Saha表示, “今天發(fā)布的Amazon SageMaker新功能讓團隊能夠更輕松地加快機器學(xué)習模型的端到端開(kāi)發(fā)和部署。 從專(zhuān)門(mén)構建的治理工具到下一代Notebook體驗和簡(jiǎn)化的模型測試,再到對地理空間數據的增強支持,我們在 Amazon SageMaker 的基礎上不斷創(chuàng )新,幫助客戶(hù)大規模利用機器學(xué)習?!?/span>
對很多用戶(hù)而言,云計算讓機器學(xué)習觸手可及。但直到幾年前,構建、訓練和部署模型的過(guò)程仍然是艱苦而乏味的,人手不多的數據科學(xué)家團隊需要進(jìn)行為期數周或數月的持續迭代,才能使模型達到生產(chǎn)水平。亞馬遜云科技在五年前推出 Amazon SageMaker以應對這些挑戰,此后陸續增加了250 多項新特性和功能,讓客戶(hù)能夠更輕松地在多項業(yè)務(wù)中使用機器學(xué)習。當前,一些客戶(hù)聘請了數百名專(zhuān)業(yè)人員,他們使用 Amazon SageMaker 做出預測,用以在改善客戶(hù)體驗、優(yōu)化業(yè)務(wù)流程和加速新產(chǎn)品和服務(wù)開(kāi)發(fā)等方面幫助解決最嚴峻的挑戰。隨著(zhù)機器學(xué)習應用的增長(cháng),客戶(hù)想要使用的數據類(lèi)型不斷增加,客戶(hù)需要的治理、自動(dòng)化和質(zhì)量保證水平也與日俱增,以期實(shí)現對機器學(xué)習負責任的應用。Amazon SageMaker一向致力于為全球所有技能水平的專(zhuān)業(yè)人員提供支持,此次發(fā)布也秉承了這一創(chuàng )新傳統。
Amazon SageMaker 機器學(xué)習治理新功能
Amazon SageMaker新功能可以幫助客戶(hù)更輕松地在機器學(xué)習模型生命周期中擴大治理規模。 隨著(zhù)企業(yè)內模型和用戶(hù)數量的增長(cháng),設置最低權限的訪(fǎng)問(wèn)控制和創(chuàng )建治理流程以記錄模型信息(如輸入數據集、訓練環(huán)境信息、模型使用描述和風(fēng)險評級)都變得愈發(fā)困難。模型部署后,客戶(hù)還需要監測偏差和特征偏移,從而確保模型按預期運行。
Amazon SageMaker Role Manager 可以更輕松地控制訪(fǎng)問(wèn)和權限:適當的用戶(hù)訪(fǎng)問(wèn)控制是治理的基石,它保護數據隱私,防止信息泄露,確保專(zhuān)業(yè)人員可以訪(fǎng)問(wèn)他們完成工作所需的工具。但一旦數據科學(xué)團隊增加到數十甚至數百人,實(shí)施這些控制就會(huì )變得越來(lái)越復雜。機器學(xué)習管理員(創(chuàng )建和監控組織內機器學(xué)習系統的人)必須平衡對簡(jiǎn)化開(kāi)發(fā)的需求和對管控機器學(xué)習工作流內任務(wù)、資源和數據訪(fǎng)問(wèn)的需求。當前,管理員通常創(chuàng )建電子表格或使用臨時(shí)列表導覽數十種不同活動(dòng)(如數據準備和訓練)和角色(如機器學(xué)習工程師和數據科學(xué)家)所需的訪(fǎng)問(wèn)策略。這些工具需要手動(dòng)維護,而且可能需要數周時(shí)間才能明確新用戶(hù)有效完成工作所需的具體任務(wù)。Amazon SageMaker Role Manager 讓管理員可以更輕松地控制訪(fǎng)問(wèn)并為用戶(hù)定義權限。管理員可以根據不同的用戶(hù)角色和職責選擇和編輯預建模板。之后,該工具會(huì )在幾分鐘內自動(dòng)創(chuàng )建具有必要權限的訪(fǎng)問(wèn)策略,持續降低添加和管理用戶(hù)所投入的時(shí)間和精力。
Amazon SageMaker Model Cards簡(jiǎn)化模型信息收集:當前,大多數專(zhuān)業(yè)人員依靠不同的工具(如電子郵件、電子表格和文本文件)記錄模型開(kāi)發(fā)和評估期間的業(yè)務(wù)需求、關(guān)鍵決策和觀(guān)察結果。專(zhuān)業(yè)人員需要用這些信息支持審批工作流、注冊、審計、客戶(hù)查詢(xún)和監控,但要為每個(gè)模型都收集這些詳細信息則需要幾個(gè)月的時(shí)間。一些專(zhuān)業(yè)人員試圖通過(guò)構建復雜的記錄保存系統來(lái)解決問(wèn)題,但這樣的系統需要手動(dòng)操作、耗時(shí)且容易出錯。Amazon SageMaker Model Cards在亞馬遜云科技控制臺提供了單獨的位置存儲模型信息,從而在整個(gè)模型生命周期中簡(jiǎn)化文檔管理。新功能會(huì )自動(dòng)將輸入數據集、訓練環(huán)境和訓練結果等詳細的訓練信息直接輸入到 Amazon SageMaker Model Cards。用戶(hù)還可以使用自助問(wèn)卷的形式保存模型信息(如精度目標、風(fēng)險評級)、訓練和驗證結果(如偏差或精準度指標)以及供將來(lái)參考的觀(guān)察結果,用以進(jìn)一步提升治理水平、支持負責任地使用機器學(xué)習。
Amazon SageMaker Model Dashboard 提供集中界面以跟蹤機器學(xué)習模型:模型部署到生產(chǎn)環(huán)境后,專(zhuān)業(yè)人員希望不斷跟蹤模型以了解其性能、識別潛在問(wèn)題。這一任務(wù)通常針對每個(gè)模型單獨完成。但當組織開(kāi)始部署數千個(gè)模型時(shí),這種方式會(huì )變得越來(lái)越復雜,需要大量的時(shí)間和資源。 Amazon SageMaker Model Dashboard 可以全面概覽已部署的模型和端點(diǎn),讓專(zhuān)業(yè)人員只需在一個(gè)地方就可以跟蹤資源和模型行為。通過(guò)模型看板,客戶(hù)還可以使用內置集成的Amazon SageMaker Model Monitor(具備模型與數據偏移監控功能)和Amazon SageMaker Clarify(具備機器學(xué)習偏差檢測功能)。這種對模型行為和性能的端到端可見(jiàn)性為簡(jiǎn)化機器學(xué)習治理流程、快速解決模型問(wèn)題提供了必備的信息。
下一代Notebook
Amazon SageMaker Studio Notebook 為專(zhuān)業(yè)人員提供了從數據探索到部署的全托管Notebook體驗。 隨著(zhù)團隊規模和復雜性的增加,可能有數十名專(zhuān)業(yè)人員需要使用Notebook協(xié)作開(kāi)發(fā)模型。亞馬遜云科技推出三項新功能幫助客戶(hù)協(xié)調和自動(dòng)化Notebook代碼,進(jìn)一步為用戶(hù)提供最佳Notebook體驗。
簡(jiǎn)化數據準備:專(zhuān)業(yè)人員在準備訓練數據時(shí)希望直接在Notebook中探索數據集,以發(fā)現和糾正潛在的數據質(zhì)量問(wèn)題(如信息缺失、極值、數據集失真和偏差)。專(zhuān)業(yè)人員可能要花費數月時(shí)間編寫(xiě)樣板代碼將數據集的不同部分可視化,檢查數據集,以期識別和修復問(wèn)題。Amazon SageMaker Studio Notebook提供內置的數據準備功能,讓專(zhuān)業(yè)人員只需點(diǎn)擊幾下即可直觀(guān)地查看數據特征、修復數據質(zhì)量問(wèn)題,所有這一切都直接在Notebook環(huán)境中進(jìn)行。當用戶(hù)在Notebook中顯示data frame(即數據的表格形式)時(shí),Amazon SageMaker Studio Notebook 會(huì )自動(dòng)生成圖表幫助用戶(hù)識別數據質(zhì)量問(wèn)題,提供數據轉換建議幫助解決常見(jiàn)問(wèn)題。專(zhuān)業(yè)人員選擇數據轉換后,Amazon SageMaker Studio Notebook 會(huì )在Notebook中生成相應代碼,可供每次運行Notebook時(shí)重復應用。
加速整個(gè)數據科學(xué)團隊的協(xié)作:準備好數據后,專(zhuān)業(yè)人員就可以開(kāi)始開(kāi)發(fā)模型。這是一個(gè)迭代過(guò)程,可能需要團隊成員在同一個(gè)Notebook中進(jìn)行協(xié)作。當前,團隊必須通過(guò)電子郵件或聊天應用交換Notebook和其它資產(chǎn)(如模型和數據集),以便在Notebook上實(shí)時(shí)協(xié)作,這會(huì )導致溝通疲勞、反饋遲滯和版本不統一等問(wèn)題。 Amazon SageMaker 現在為團隊提供了一個(gè)工作區,成員可以在其中實(shí)時(shí)閱讀、編輯和運行Notebook,簡(jiǎn)化協(xié)作和溝通。團隊成員可以一起查看Notebook結果,立即了解模型性能,無(wú)需反復傳遞信息。Amazon SageMaker Studio Notebook支持 BitBucket 和 Amazon CodeCommit 等服務(wù),團隊可以輕松管理不同的Notebook版本,比較版本變更。實(shí)驗和機器學(xué)習模型這樣的附加資源也會(huì )自動(dòng)保存,讓團隊工作井井有條。
Notebook代碼自動(dòng)轉換為生產(chǎn)就緒作業(yè):當專(zhuān)業(yè)人員要將訓練完成的機器學(xué)習模型用到生產(chǎn)中時(shí),他們通常將代碼片段從Notebook復制到一個(gè)腳本,再將腳本及其所有的依賴(lài)項打包到容器,最后調度容器運行。要在日程表上重復運行該作業(yè),他們必須搭建、配置和管理持續集成和持續交付 (CI/CD)管道,才能實(shí)現自動(dòng)化部署。搭建所有必要的基礎設施可能需要數周時(shí)間,這會(huì )占用核心的機器學(xué)習開(kāi)發(fā)活動(dòng)時(shí)間。Amazon SageMaker Studio Notebook 現在讓專(zhuān)業(yè)人員可以選擇一個(gè)Notebook,將其自動(dòng)化為可以在生產(chǎn)環(huán)境運行的作業(yè)。Notebook選擇完成后,Amazon SageMaker Studio Notebook 會(huì )建立整個(gè)Notebook的快照,將其依賴(lài)項打包到容器,構建基礎設施,按照專(zhuān)業(yè)人員設定的時(shí)間表將Notebook作為自動(dòng)化作業(yè)運行,當作業(yè)完成時(shí)釋放基礎設施,如此可以將Notebook投入生產(chǎn)所需的時(shí)間從數周縮短到數小時(shí)。
使用實(shí)時(shí)推理請求自動(dòng)驗證新模型
在部署到生產(chǎn)環(huán)境之前,專(zhuān)業(yè)人員會(huì )測試和驗證每個(gè)模型,檢查模型性能、識別可能對業(yè)務(wù)產(chǎn)生負面影響的錯誤。專(zhuān)業(yè)人員通常使用過(guò)去的推理請求數據測試新模型的性能,但這些數據有時(shí)無(wú)法代表當前的真實(shí)推理請求。例如,用于規劃最快路線(xiàn)的機器學(xué)習模型的歷史數據可能無(wú)法代表交通事故或突然關(guān)閉道路時(shí)交通流量的顯著(zhù)改變。為了解決這個(gè)問(wèn)題,專(zhuān)業(yè)人員將發(fā)送到生產(chǎn)模型的推理請求副本路由到他們想要測試的新模型。他們需要花費數周時(shí)間構建這樣的測試基礎設施、鏡像推理請求、比較新模型在關(guān)鍵指標(如延遲和吞吐量)上的表現。雖然這讓專(zhuān)業(yè)人員對模型的執行情況更有信心,但為數百以至數千個(gè)模型實(shí)施這些解決方案的成本和復雜性太高,使其無(wú)法規?;?。
Amazon SageMaker Inference 現在提供了一種功能,讓專(zhuān)業(yè)人員可以更輕松地實(shí)時(shí)使用相同的真實(shí)推理請求數據,將新模型的性能與生產(chǎn)模型的性能進(jìn)行比較?,F在,他們可以輕松地將測試同時(shí)擴展到數千個(gè)新模型,無(wú)需構建自己的測試基礎設施。首先,客戶(hù)選擇想要測試的生產(chǎn)模型,Amazon SageMaker Inference 隨后會(huì )將新模型部署到具有完全相同條件的托管環(huán)境。Amazon SageMaker 將生產(chǎn)模型收到的推理請求副本路由到新模型,并創(chuàng )建控制面板顯示關(guān)鍵指標之間的性能差異,客戶(hù)便可以實(shí)時(shí)了解每個(gè)模型的不同之處??蛻?hù)一旦驗證了新模型的性能并確信它沒(méi)有潛在錯誤,就可以安全地部署它。
Amazon SageMaker全新的地理空間功能讓客戶(hù)可以更輕松地使用衛星和位置數據進(jìn)行預測
當前,大部分收集到的數據都包含地理空間信息(如位置坐標、天氣圖和交通數據)。但是,已經(jīng)用于機器學(xué)習的只有一小部分,原因是地理空間數據集很難處理,通常達到PB 級的規模,且跨越整個(gè)城市或數百公里土地。要開(kāi)始構建地理空間模型,客戶(hù)通常會(huì )采購衛星圖像或地圖數據等第三方數據源以補充其專(zhuān)有數據。由于地理空間數據規模龐大,專(zhuān)業(yè)人員需要合并這些數據,準備數據用于訓練,并編寫(xiě)代碼將數據集劃分為可管理的子集。當客戶(hù)準備部署訓練好的模型時(shí),他們必須編寫(xiě)更多代碼以重新組合多個(gè)數據集,將數據和機器學(xué)習模型預測關(guān)聯(lián)起來(lái)。為了從完成的模型中提取預測結果,專(zhuān)業(yè)人員需要花費數天時(shí)間使用開(kāi)源的可視化工具在地圖上做渲染。從數據改進(jìn)到可視化,整個(gè)過(guò)程可能需要幾個(gè)月的時(shí)間,這使得客戶(hù)很難利用地理空間數據及時(shí)產(chǎn)生機器學(xué)習預測。
Amazon SageMaker將客戶(hù)豐富數據集、訓練地理空間模型并將結果可視化的時(shí)間從數月縮短到數小時(shí),從而加速和簡(jiǎn)化地理空間機器學(xué)習預測的生成??蛻?hù)只需幾次點(diǎn)擊或使用 API就可以使用 Amazon SageMaker訪(fǎng)問(wèn)各種地理空間數據源,例如亞馬遜云科技的位置服務(wù)Amazon Location Service、開(kāi)放數據集Amazon Open Data、客戶(hù)自有數據和來(lái)自Planet Labs等第三方供應商的數據。當專(zhuān)業(yè)人員選擇了想要使用的數據集,他們可以利用內置的運算器將這些數據集與自己的專(zhuān)有數據合并起來(lái)。為了加快模型開(kāi)發(fā),Amazon SageMaker 提供了預訓練的深度學(xué)習模型,其支持的用例包括通過(guò)精準農業(yè)提高作物產(chǎn)量、監測自然災害后區域恢復以及改善城市規劃等。訓練完成后,內置的可視化工具在地圖上顯示數據,揭示新的預測。
Capitec Bank 是南非最大的數字銀行,擁有超過(guò) 1000 萬(wàn)數字客戶(hù)。 “在 Capitec,我們在各個(gè)產(chǎn)品線(xiàn)都擁有大批數據科學(xué)家,他們構建不同的機器學(xué)習解決方案?!?/span>Capitec Bank 機器學(xué)習工程師 Dean Matter表示,“我們的機器學(xué)習工程師管理著(zhù)一個(gè)基于 Amazon SageMaker 構建的集中式建模平臺,支持所有這些機器學(xué)習解決方案的開(kāi)發(fā)和部署。在沒(méi)有任何內置工具的情況下,跟蹤建模工作往往發(fā)生文檔脫節,模型缺乏可見(jiàn)性。借助 Amazon SageMaker Model Cards,我們可以在統一環(huán)境中跟蹤大量的模型元數據。而Amazon SageMaker Model Dashboard 提供了對每個(gè)模型性能的可見(jiàn)性。此外,Amazon SageMaker Role Manager 簡(jiǎn)化了對不同產(chǎn)品線(xiàn)數據科學(xué)家進(jìn)行的訪(fǎng)問(wèn)管理。每一項功能都有助于我們的模型治理,足以保證客戶(hù)對我們作為金融服務(wù)提供商的信任?!?/span>
EarthOptics 是一家土壤數據測量和制圖公司,利用專(zhuān)有傳感器技術(shù)和數據分析精確測量土壤健康狀況和土壤結構。 “我們希望使用機器學(xué)習幫助客戶(hù)利用經(jīng)濟實(shí)惠的土壤地圖提高農業(yè)產(chǎn)量?!?/span> EarthOptics 首席執行官 Lars Dyrud 表示,“Amazon SageMaker 的地理空間機器學(xué)習功能使我們能夠使用多個(gè)數據源快速構建算法原型,并且將研究和部署生產(chǎn) API 之間的時(shí)間縮短到只有一個(gè)月。 得益于 Amazon SageMaker,我們?yōu)槊绹鞯氐霓r場(chǎng)和牧場(chǎng)部署了用于土壤固碳的地理空間解決方案?!?/span>
HERE Technologies 是一個(gè)領(lǐng)先的位置數據和技術(shù)平臺,可幫助客戶(hù)創(chuàng )建自定義地圖和基于高精度位置數據的位置體驗。 “我們的客戶(hù)需要實(shí)時(shí)情境信息,利用空間模式和趨勢洞察做出業(yè)務(wù)決策?!?/span>HERE Technologies 首席產(chǎn)品和技術(shù)官 Giovanni Lanfranchi 表示,“我們依靠機器學(xué)習自動(dòng)從不同數據源獲取位置數據,增強數據的情境信息,加速數據分析。Amazon SageMaker 的測試新功能讓我們能夠在生產(chǎn)中更嚴格、更主動(dòng)地測試機器學(xué)習模型,避免對客戶(hù)造成不利影響或者因為部署的模型出錯導致任何中斷。 這對我們至關(guān)重要,因為客戶(hù)期待我們根據瞬息萬(wàn)變的實(shí)時(shí)位置數據提供及時(shí)的見(jiàn)解?!?/span>
Intuit 是全球性金融技術(shù)平臺,通過(guò) TurboTax、Credit Karma、QuickBooks 和 Mailchimp等產(chǎn)品支持全球超過(guò) 1 億客戶(hù)的繁榮發(fā)展。 “我們正在釋放數據的力量,給我們平臺上的消費者、個(gè)體經(jīng)營(yíng)者和小型企業(yè)帶來(lái)金融變革?!?/span>Intuit 工程和產(chǎn)品開(kāi)發(fā)總監 Brett Hollman 表示,“為了進(jìn)一步提高團隊效率、將 AI 驅動(dòng)的產(chǎn)品快速推向市場(chǎng),我們與亞馬遜云科技密切合作,設計了 SageMaker Studio Notebook 中全新的團隊協(xié)作功能。我們成功實(shí)現了簡(jiǎn)化溝通和協(xié)作,讓我們的團隊能夠使用 Amazon SageMaker Studio 將機器學(xué)習開(kāi)發(fā)規?;??!?/span>
評論