干貨分享|NVIDIA GPU應用解決方案加速AI應用落地
前言:現今已是2023年了,科技在快速發(fā)展,特別是數字智能時(shí)代的到來(lái),AI作為核心驅動(dòng)力量為醫療行業(yè)、汽車(chē)行業(yè)以及AI等行業(yè)帶來(lái)了巨大轉變。
本文引用地址:http://dyxdggzs.com/article/202302/442943.htm如在醫療行業(yè),應用認知計算技術(shù)AI能為人們的健康保駕護航,將人工智能應用到醫院平臺,能從各種渠道分析訪(fǎng)問(wèn)者的健康狀況并提供保健相關(guān)的洞察力,并與訪(fǎng)問(wèn)者進(jìn)行雙向互動(dòng)。對于患者而言,AI可以幫助自己預知發(fā)病時(shí)間,并及時(shí)尋求有效的解決方案;
如在汽車(chē)行業(yè),可以利用AI技術(shù)進(jìn)行自動(dòng)駕駛,改變我們的出行方式,創(chuàng )造更安全、更高效的出行方式;
如在A(yíng)I行業(yè),人工智能可以自主學(xué)習大量而深厚的專(zhuān)業(yè)知識,開(kāi)發(fā)者能通過(guò)人工智能對這些大量非結構化數據進(jìn)行訓練、推理和學(xué)習。
……
我們都知道支撐AI應用需要完善的基礎架構,但是在A(yíng)I解決方案部署過(guò)程中,從底層算力平臺到上層資源管理軟件,整個(gè)基礎架構需要集成CPU、GPU、存儲、網(wǎng)絡(luò )等多種硬件基礎設施,其中GPU是部署過(guò)程中的關(guān)鍵,因為GPU加速計算是近年來(lái)集群建設的主流方案,可以提供卓越的應用程序性能,將應用程序計算密集部分的工作負載轉移到GPU,同時(shí)仍由CPU運行其余程序代碼,可顯著(zhù)提高應用程序的運行速度,建設一個(gè)GPU高性能計算集群可以提供一個(gè)GPU加速的人工智能實(shí)驗平臺,促進(jìn)企業(yè)人工智能、大數據、深度學(xué)習、機器學(xué)習等算法方面的研究和應用。
此外,還需要pytorch、Tensorflow等AI框架,AI框架是為了更輕松、高效地研究和應用深度學(xué)習,目前主流的深度學(xué)習框架都很好的支持GPU加速,框架可專(zhuān)門(mén)為深度神經(jīng)網(wǎng)絡(luò )(DNN)訓練所需的計算提供支持高度優(yōu)化GPU的代碼NVIDIA的框架經(jīng)過(guò)調優(yōu)和測試,可提供非常出色的GPU性能,借助這些框架,用戶(hù)可以通過(guò)簡(jiǎn)單的命令行或Python等腳本語(yǔ)言接口訪(fǎng)問(wèn)代碼。許多功能強大的DNN都可通過(guò)這些框架來(lái)訓練和部署,而無(wú)需編寫(xiě)任何GPU或復雜的編譯代碼。再通過(guò)docker容器技術(shù),調度器等軟件進(jìn)行統一的計算資源與數據庫管理和調度,可從GPU加速帶來(lái)的訓練速度提高中受益。
如果將能成功跑起來(lái)的AI應用比做一輛車(chē),那么算法就是發(fā)動(dòng)機,大數據是油,提供動(dòng)力,而GPU計算力就是車(chē)輪,只有三者相匹配、融為一體,才能跑得快、跑得遠。
工欲善其事必先利其器, 機房建設是部署AI應用的基礎,也是整個(gè)基礎架構中最底層的部分,合理的機房建設可以滿(mǎn)足未來(lái)計算資源的擴容,可以提高計算資源的利用率,節省空間與能耗,機房基礎設施涉及服務(wù)器機柜、KVM切換器、UPS不間斷電源、精密空調、防靜電地板,新風(fēng)系統、隔音的處理等等,機房基礎建設要考慮未來(lái)算力資源的擴充,提前根據算力平臺的功耗考慮供電系統,根據設備的數量考慮機房空間。
另外機房基礎建設分為傳統機房和模塊化機房,傳統機房一般采用工業(yè)空調對機房整體空間制冷的方式,或者是采用精密空調架空地板下送風(fēng)方式制冷方式,模塊化機房與傳統機房最大的區別在于能夠最大限度的利用制冷功率為設備散熱。因為其采用封閉冷通道方式,冷氣與熱氣隔離,整體提高制冷效率;空調與IT機柜并排間隔擺放,采用空調水平送風(fēng)直接對機柜吹冷風(fēng),滿(mǎn)足其散熱需求,為客戶(hù)節約大量運營(yíng)成本。其次,模塊化機房能夠快速部署。因其出廠(chǎng)前完成機柜的預安裝,現場(chǎng)只需接通外部電源,固定機柜等簡(jiǎn)單操作即可使用,思騰合力包頭云計算中心即采用模塊化機房,位于包頭市稀土高新區,總面積2400平米,地板承重800KG/㎡,抗震烈度等級8級,電力方面稀土變+沼潭變,雙市電保障,發(fā)電機冗余,滿(mǎn)負荷下可運行12小時(shí),并與加油站簽署供油合同,UPS采用采用2N冗余UPS供電,滿(mǎn)載后備120分鐘,空調方面采用N+1列間精密空調,運營(yíng)安全方面采用雙冗余華為6680防火墻,開(kāi)啟IPS/IDS/防病毒功能,采用7x24小時(shí)不間斷全方位機房監控,采用大數據動(dòng)態(tài)感知系統,實(shí)時(shí)分析預警。
在解決機房建設這個(gè)基礎問(wèn)題后,硬件問(wèn)題亦是重點(diǎn)。
要知道硬件資源層構成復雜,部署AI應用需要涉及算力、網(wǎng)絡(luò )、存儲等方面,標準的集群構建需要管理節點(diǎn)、計算節點(diǎn)、存儲節點(diǎn)和網(wǎng)絡(luò )節點(diǎn)、我們一般管理節點(diǎn)采用普通2U機架式服務(wù)器,顧名思義,它是承擔集群中管理的角色,計算節點(diǎn)即我們提供核心算力的部分,通常采用GPU服務(wù)器,為首的有NVIDIA A40 Tensor Core GPU。
NVIDIA A40是NVIDIA Ampere 架構GPU,速度提升一倍的單精度浮點(diǎn) (FP32) 運算處理和改善的能效可顯著(zhù)提高圖形和模擬工作流程的性能,A40采用第二代 RT Core 的吞吐量是上一代的 2 倍,并能同時(shí)運行光線(xiàn)追蹤和著(zhù)色或降噪功能,從而大幅加快工作負載的運行速度,A40采用第三代 Tensor Core新的 Tensor Float 32 (TF32) 精度提供的訓練吞吐量達到上一代的 5 倍,而且無(wú)需更改代碼即可加速 AI 和數據科學(xué)模型的訓練。從硬件上支持結構稀疏度使推理吞吐量提升一倍;另外,A40具有超高速 GDDR6 顯存,單卡48GB,還可通過(guò) NVLink 擴展到高達 96 GB,為數據科學(xué)家、工程師和創(chuàng )意專(zhuān)業(yè)人士提供所需的大容量顯存,讓他們能夠處理大型數據集以及數據科學(xué)和模擬等工作負載,PCI Express 第 4 代將 PCIe 第 3 代的帶寬增加了一倍,因而提升了從 CPU 內存傳輸數據的速度,能更好地支持 AI、數據科學(xué)和 3D 設計等數據密集型任務(wù),更快的 PCIe 性能還能加速 GPU 直接顯存訪(fǎng)問(wèn) (DMA) 傳輸,A40 向后兼容 PCI Express 第 3 代,這也提供了部署靈活性。
(圖 NVIDIA A40)
*與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權均歸 NVIDIA Corporation 所有
思騰合力GPU服務(wù)器從2U2卡,2U4卡到4U4卡,4U8卡,4U10卡均有覆蓋,像IW4222-8GR這塊8卡GPU服務(wù)器,就是我們構建集群經(jīng)常用到的一款服務(wù)器,它支持2顆第三代Intel? Xeon? Icelake系列可擴展處理器,TDP 270W,提供強大的X86處理平臺針對推理及訓練應用,帶寬翻倍的PCIe Gen4平臺上可支持8塊雙寬GPU卡,專(zhuān)為高密度GPU計算提供多方位的性能支持,支持高速網(wǎng)絡(luò ),存儲和其他IO擴展,8個(gè)U.2硬盤(pán)。為高端計算平臺提供高速傳輸和數據存儲能力。同時(shí)進(jìn)一步優(yōu)化運維效率,擁有專(zhuān)業(yè)管理平臺能夠實(shí)現對市面主流的各類(lèi)GPU實(shí)現識別,監控,風(fēng)扇調速支持,故障報警等功能;存儲節點(diǎn)即AI應用中存放數據的地方,AI應用對于數據量的需求非常龐大,而且對于讀寫(xiě)性能、帶寬都要求很高,所以對存儲的容量、性能及安全性都有要求,存儲可以采用分布式存儲系統,即數據分布到各個(gè)存儲節點(diǎn)上,并行讀寫(xiě),提供存儲性能,同時(shí)可以采用不同的冗余方式,比如雙副本、多副本、糾刪碼冗余技術(shù)等等,保證數據安全性,這塊我司具備4U24盤(pán)位、4U36盤(pán)位存儲服務(wù)器,也有自己的分布式存儲管理軟件,可提供集性能、容量、安全性與一體的分布式存儲系統;網(wǎng)絡(luò )節點(diǎn)有3套:管理網(wǎng)絡(luò )、計算網(wǎng)絡(luò )和IPMI網(wǎng)絡(luò ),這里管理網(wǎng)絡(luò )一般采用千兆以太網(wǎng),計算網(wǎng)絡(luò )一般采用萬(wàn)兆光纖網(wǎng)絡(luò )或者IB網(wǎng)絡(luò ),IPMI網(wǎng)絡(luò )做遠程管理使用。
(圖 IW4222-8GR )
*與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權均歸 NVIDIA Corporation 所有
NVIDIA A40 GPU 可使數據中心的性能和多工作負載能力獲得進(jìn)化式飛躍。它集優(yōu)秀的專(zhuān)業(yè)圖形性能與強大的計算和 AI 加速能力于一體,可應對當今的設計、創(chuàng )意和科學(xué)挑戰。NVIDIA A40 能驅動(dòng)新一代虛擬工作站和基于服務(wù)器的工作負載,并隨時(shí)隨地為專(zhuān)業(yè)人士提供光線(xiàn)追蹤渲染、模擬、虛擬制作等領(lǐng)域的先進(jìn)功能。NVIDIA A40 對最新 vGPU 軟件的支持使復雜的圖形工作負載可以在虛擬環(huán)境中運行,且性能可與裸機媲美。
Citrix 產(chǎn)品管理副總裁 Calvin Hsu 表示:“Citrix Hypervisor8.2 和 Citrix Virtual Desktops 支持 NVIDIA 最新的 vGPU 軟件和 NVIDIA A40 ,盡管客戶(hù)需要處理的數據和工作負載不斷增加,我們依然可以繼續為其提供運行圖形密集型可視化應用程序的所需性能。 Citrix 和 NVIDIA 虛擬化技術(shù)的結合使用戶(hù)無(wú)論身在何處,都能夠訪(fǎng)問(wèn)這些應用程序,并獲得與物理工作站相媲美的優(yōu)質(zhì)體驗?!?/span>
紅帽產(chǎn)品管理總監 Steve Gordon 表示:“NVIDIA 最新一代 A40 GPU 和 NVIDIA vGPU 軟件的結合,以及紅帽企業(yè) Linux 和紅帽虛擬化的支持,能夠為用戶(hù)提供一個(gè)強大的平臺。無(wú)論在石油天然氣還是媒體娛樂(lè )行業(yè),都能滿(mǎn)足從 AI/ML 到可視化領(lǐng)域最嚴苛的工作負載。隨著(zhù)組織轉型并越來(lái)越多地使用 Kubernetes 進(jìn)行容器設計并作為其應用程序的關(guān)鍵構建模塊,我們認為紅帽可能是容器化和虛擬化工作負載的終點(diǎn)?!?/span>
上面介紹了很多關(guān)于硬件資源層的知識,筆者再分享下構建好集群硬件后,關(guān)于平臺軟件的部署的問(wèn)題
我們在開(kāi)篇講到部署AI應用需要pytorch、Tensorflow等AI框架,如果沒(méi)有平臺軟件統一管理,就需要使用者自己安裝應用環(huán)境,包括CUDA、AI框架、docker等,再進(jìn)行環(huán)境的調試,在A(yíng)I部署中,軟件環(huán)境調試非常耗費時(shí)間,并且不是所有使用者都熟悉各種軟件環(huán)境,此外,沒(méi)有軟件平臺做統一管理,會(huì )造成資源分配不均,容易產(chǎn)生計算資源的浪費,比如大多數高校發(fā)現GPU 計算資源被初學(xué)者占用,往往導致真正科研計算任務(wù)匱乏計算資源,基于 Docker 環(huán)境的計算管理環(huán)境常常發(fā)生計算資源搶占現象,讓管理者應接不暇各種投訴,這里思騰合力有自主開(kāi)發(fā)的SCM人工智能云平臺軟件,集成了主流的AI框架,可實(shí)現計算資源池化,按需分配給一個(gè)或多個(gè)用戶(hù)使用。SCM云平臺可對 GPU 高性能計算資源進(jìn)行統一的管理和調度,有效滿(mǎn)足用戶(hù)在深度學(xué)習等科研及教學(xué)方面的需求,用戶(hù)可以快速的在平臺上進(jìn)行數據處理、算法設計、模型訓練、模型驗證、模型部署等工作,而不用關(guān)心底層復雜的集群構建與調度機制以及深度學(xué)習框架的安裝部署、性能調優(yōu)等問(wèn)題,在充分簡(jiǎn)化深度學(xué)習訓練方面工作的同時(shí)有效提高資源利用率。
其實(shí)分享到這里,我們的AI應用的全套裝備差不多就齊全了,下面以實(shí)際案例,讓我們在看看一個(gè)AI應用究竟是如何落地的。
案例1:國內某知名智能汽車(chē)設計及制造商AI駕駛基礎架構建設,定位于深圳,成立于2014年,是一家專(zhuān)注未來(lái)出行的科技公司。他們一直堅持飽和式研發(fā)投入,構建全棧自研的核心能力,如今已經(jīng)成為中國領(lǐng)先的智能電動(dòng)汽車(chē)公司之一。
背景:在研發(fā)的過(guò)程中,尤其是深度神經(jīng)網(wǎng)絡(luò )建模及訓練,需要大量計算力,因為汽車(chē)自動(dòng)駕駛是需要很多大量數據進(jìn)行訓練,讓這個(gè)汽車(chē)能夠去進(jìn)行圖象圖形的識別,然后應用在汽車(chē)當中,讓我們的汽車(chē)能夠智能化的去自動(dòng)駕駛。
需求痛點(diǎn):
1 模型和算法出現算力瓶頸,訓練出成熟的模型周期太長(cháng);
2 難分配:存在的所有資源都是以物理形式存在,沒(méi)有辦法很好的進(jìn)行合理資源分配,導致算法研究存在一定問(wèn)題。低效率:正在運行中的項目作業(yè)只能靠人為干預檢查是否正常運行,費時(shí)費力。不靈活:大量的算力資源無(wú)法通過(guò)軟件進(jìn)行靈活調配,無(wú)法支撐算力需求極高的任務(wù);
3 難定位:在多個(gè)線(xiàn)程的項目同時(shí)運行時(shí),一旦有其中之一出錯,難以精準定位報錯任務(wù)。
解決方案:從底層硬件算力平臺和上層軟件管理平臺的統一部署,使用6節點(diǎn)思騰合力IW4213-4G,加速計算卡為NVIDIA A40,配合NVIDIA 深度學(xué)習SDK與NVIDIA DRIVE? 軟件堆棧進(jìn)行問(wèn)題的解決。
部署效果:
GPU作為底層平臺,很好的起到了加速應用的作用,幫助深度學(xué)習的研發(fā)人員更快的訓練出成熟的模型,其次,用戶(hù)可以根據需求選擇不同的平臺,深度學(xué)習研發(fā)人員需要在算法、統計方面精益求精,都需要一個(gè)生態(tài)環(huán)境的支持,GPU已經(jīng)構建了CUDA、cuDNN及DIGITS等工具,支持硬件兼容,GPU高性能解決方案讓研發(fā)人員能夠排除意外干擾,專(zhuān)注于深度學(xué)習的研究項目中。
案例2:國內某知名醫院AI醫療算力平臺建設,醫院位于北京市昌平區,由高校與北京市共建共管的大型綜合性公立醫院,建設和運營(yíng)過(guò)程中得到了臺塑企業(yè)的無(wú)私捐助和援建。
背景:基于現代先進(jìn)的醫療科研發(fā)展趨勢,醫院作為新型醫院,對于病例、病因的數據處理需求很大?;颊叩尼t療影像數據十分龐大,原有設備已無(wú)法滿(mǎn)足大量的數據推理,模型訓練,新型醫院需要對患者肺部的切片醫療影像進(jìn)行病理匹配、判斷,減少醫療事故的發(fā)生。
需求痛點(diǎn):
1 對于病例、病因的數據處理需求很大,很多數據沒(méi)有及時(shí)的建立相應的數據庫進(jìn)行存放。
2 設備數量不足,無(wú)法滿(mǎn)足龐大的醫療影像數據進(jìn)行數據訓練、數據推理與模型訓練等。
3 無(wú)法對未知的病部切片進(jìn)行推理分析,無(wú)法在影像中看到醫生肉眼看不到的疾病發(fā)展征象。
解決方案:從底層硬件算力平臺和上層軟件管理平臺的統一部署,1節點(diǎn)IW2200-2G計算服務(wù)器,1節點(diǎn)IW4200-8G計算服務(wù)器,1節點(diǎn)IR2200推理服務(wù)器,1節點(diǎn)管理服務(wù)器,1節點(diǎn)存儲服務(wù)器,加速計算卡為NVIDIA A40,計算網(wǎng)絡(luò )采用萬(wàn)兆光纖組網(wǎng),軟件管理平臺使用思騰合力SCM人工智能云平臺軟件。
部署效果:
AI與醫療的融合可以有效的解決資源不均衡的痛點(diǎn),AI的強大在于可以通過(guò)大量的數據深度學(xué)習之后,能夠預測和看到人類(lèi)肉眼看不到的東西,比如通過(guò)影像切片預測病變的發(fā)生。通過(guò)AI經(jīng)過(guò)上千病例的訓練,能在影像中看到醫生肉眼看不到的疾病發(fā)展征象,從而給出醫生更精準的判斷提示,算力平臺的建設可加快AI模型的訓練與推理。
案例3:北京某知名AI科技公司智能視覺(jué)處理平臺建設,公司位于北京市海淀區,是一家以圖像處理與智能視覺(jué)為核心的AI技術(shù)服務(wù)提供商。
背景:公司是以圖像處理與智能視覺(jué)為核心的AI技術(shù)服務(wù)提供商,聚焦活體采集、人臉識別、人形檢索等應用,以高性能圖像處理和視頻結構化技術(shù)為基礎,整合人、物識別與追跡以及場(chǎng)景感知,需要GPU集群加速數據處理過(guò)程。
需求痛點(diǎn):
1.人臉識別、人臉比對云服務(wù)的算法訓練周期太長(cháng),影響客戶(hù)體驗的同時(shí),丟失了部分商業(yè)市場(chǎng)。
2人形檢索與人物追跡、車(chē)牌識別等算法精確度不足,時(shí)長(cháng)出現識別錯誤的信息。
3高性能圖像處理和視頻結構化技術(shù)在實(shí)際的應用場(chǎng)景中,對項目落地的要求太高,端到端的AI算法訓練難以開(kāi)展。
解決方案:從底層硬件算力平臺和上層軟件管理平臺的統一部署,1節點(diǎn)思騰合力IR2200管理服務(wù)器,2節點(diǎn)思騰合力IW4200-8G計算服務(wù)器,1節點(diǎn)思騰合力IS4200-24存儲服務(wù)器,加速計算卡為NVIDIA A40,計算網(wǎng)絡(luò )采用56G Mellanox IB組網(wǎng)與千兆以太網(wǎng)管理,軟件管理平臺使用思騰合力SCM人工智能云平臺軟件。
部署效果:
通過(guò)思騰合力搭建的GPU集群環(huán)境,配套云平臺軟件,可實(shí)現端到端的AI算法訓練,加速了人臉識別、人臉比對云服務(wù)、人形檢索與人物追跡、車(chē)牌識別等算法的落地。
NVIDIA GPU應用在實(shí)際的項目中需要多重因素協(xié)調配合,對于一些非計算機專(zhuān)業(yè)人員,基礎設施的開(kāi)發(fā)、搭建、調試往往要耗費數月時(shí)間,期間透明性低,測試頻繁,效率低下,嚴重限制人工智能技術(shù)在行業(yè)中的應用,比如Tensorflow、Caffe 等眾多的計算框架以及 CNN、RNN 等復雜的網(wǎng)絡(luò )模型,即便是資深工程師也需要花費大量的時(shí)間成本學(xué)習和應用,主流計算框架采用 CPU+GPU 的異構計算平臺,其管理和調度融合了高性能計算、大數據和云計算等多領(lǐng)域技術(shù),實(shí)現難度較大,諸如思騰合力這類(lèi)解決方案提供者,可以幫助大家完成從基礎設施到云管理平臺的構建,通過(guò)其研發(fā)的SCM人工智能云平臺軟件,面向大規模異構計算基礎設施管理,解決上述問(wèn)題。
這篇文章就暫時(shí)先到這里,希望各位開(kāi)發(fā)者、技術(shù)負責人、業(yè)務(wù)管理者們能夠找到適合自身的解決方案,在A(yíng)I企業(yè),醫療、金融、教育、汽車(chē)等行業(yè)中更好的使用NVIDIA GPU的應用,充分提升GPU資源利用效率,降低部署AI應用的總體擁有成本,提升AI研發(fā)創(chuàng )新效率!
評論