AI大模型與汽車(chē)產(chǎn)業(yè)融合,人機交互將迎來(lái)質(zhì)變 | 尋找中國經(jīng)濟新動(dòng)能
4月25日-5月4日,2024(第十八屆)北京國際汽車(chē)展覽會(huì )在中國國際展覽中心舉行。商湯絕影在展會(huì )上首次向公眾展出了面向量產(chǎn)的真·端到端自動(dòng)駕駛解決方案UniAD(Unified Autonomous Driving)的道路測試表現,同時(shí)還帶來(lái)了以多模態(tài)場(chǎng)景大腦為核心的AI大模型座艙產(chǎn)品矩陣以及全新座艙3D交互演示。
2022年底,商湯及其聯(lián)合實(shí)驗室提出了行業(yè)首個(gè)感知決策一體化自動(dòng)駕駛通用模型UniAD,并在次年榮獲2023年國際計算機視覺(jué)與模式識別會(huì )議(CVPR)最佳論文。
今年年初,特斯拉開(kāi)始向部分用戶(hù)推送FSD V12版本的端到端自動(dòng)駕駛方案,業(yè)內隨之出現了越來(lái)越多的“端到端”智駕方案。與大部分端到端方案采用由感知和決策兩個(gè)模型組成的“兩段式”架構不同,UniAD將感知、決策、規劃等模塊都整合到一個(gè)全棧Transformer端到端模型,實(shí)現了感知決策一體化。
搭載UniAD端到端自動(dòng)駕駛解決方案的車(chē)輛不需要高精地圖,僅憑攝像頭的視覺(jué)感知就可以像人一樣觀(guān)察并理解外部環(huán)境,然后基于感知信息,UniAD能夠自己思考并自主解決各種高難度的城市復雜駕駛場(chǎng)景。
在北京車(chē)展的上車(chē)演示中,商湯絕影展示了在復雜場(chǎng)景下UniAD的處理能力:在上海臨港無(wú)標線(xiàn)鄉村窄路上,對向有車(chē)駛來(lái),前方有行人在跑步,UniAD判斷出前方有足夠的空間進(jìn)行操作,所以在確保安全的情況下,選擇快速向左繞過(guò)行人然后回到正常行駛路線(xiàn)完成會(huì )車(chē)。
商湯絕影是商湯集團旗下聚焦智能汽車(chē)業(yè)務(wù)的子公司,落戶(hù)在上海臨港。公司通過(guò)構建駕-艙-云三位一體的通用人工智能(AGI)技術(shù)架構,將人工智能技術(shù)與汽車(chē)產(chǎn)業(yè)進(jìn)行融合。
目前,上海臨港新片區作為絕影自動(dòng)駕駛研發(fā)的基地之一,向其提供了包括車(chē)路協(xié)同等方面的開(kāi)放場(chǎng)景,幫助絕影推進(jìn)產(chǎn)品的迭代和技術(shù)的演進(jìn)。
今年的《政府工作報告》將“大力推進(jìn)現代化產(chǎn)業(yè)體系建設,加快發(fā)展新質(zhì)生產(chǎn)力”放在2024年政府工作任務(wù)的首位,提出要充分發(fā)揮創(chuàng )新的主導作用,同時(shí)強調“鞏固擴大智能網(wǎng)聯(lián)新能源汽車(chē)等產(chǎn)業(yè)領(lǐng)先優(yōu)勢”與“深化大數據、人工智能等研發(fā)應用,開(kāi)展‘人工智能+’行動(dòng)”。
商湯科技聯(lián)合創(chuàng )始人、首席科學(xué)家、絕影智能汽車(chē)事業(yè)群總裁王曉剛認為,AI大模型將助推新質(zhì)生產(chǎn)力的發(fā)展,推進(jìn)AI的規?;a(chǎn)業(yè)應用,特別是AI大模型與汽車(chē)產(chǎn)業(yè)的碰撞與融合。
“大模型給人類(lèi)社會(huì )也包括汽車(chē)行業(yè)帶來(lái)的變化主要體現在兩個(gè)方面:一個(gè)是生產(chǎn)效率的提升,另外一個(gè)是人機交互體驗的質(zhì)變。”王曉剛在接受界面新聞專(zhuān)訪(fǎng)時(shí)提到。
例如在智能座艙里,在開(kāi)發(fā)例如駕駛員感知、乘員感知等各類(lèi)AI功能的時(shí)候,包含識別打電話(huà)、疲勞分心等多個(gè)任務(wù),以前每增加一個(gè)功能都需要投入大量的研發(fā)人員去開(kāi)發(fā)。但隨著(zhù)多模態(tài)大模型的出現,對于新任務(wù)的泛化能力大大提升,無(wú)論是提取基于座艙里捕捉到的圖像視頻,或是問(wèn)詢(xún)各種開(kāi)放式的問(wèn)題,一個(gè)模型就可以解決座艙里出現的多個(gè)智能化任務(wù)。
在人機交互體驗上,隨著(zhù)多模態(tài)大模型的出現,系統可以通過(guò)人的指令改變自動(dòng)駕駛的行為。比如在高速路上開(kāi)車(chē)的時(shí)候,如果覺(jué)得旁邊臨車(chē)道的大卡車(chē)有壓迫感,駕駛員就可以通過(guò)語(yǔ)音指令讓汽車(chē)和大卡車(chē)保持距離。
在輸出上也不僅限于能輸出駕駛的軌跡、規控,大模型還能夠以文字和語(yǔ)言的形式,解釋模型駕駛過(guò)程中做出的各種行為判斷。由此一來(lái),自動(dòng)駕駛系統就不再是一個(gè)黑盒子,將擁有更好的解釋性和人機交互的體驗。
“汽車(chē)某種意義上就像一個(gè)機器人,大模型能夠讓汽車(chē)變成一個(gè)更加通用的智能體,理解司機與乘客,提供更個(gè)性化的服務(wù)。”王曉剛說(shuō)。
通用人工智能和大模型的進(jìn)化離不開(kāi)基礎設施的建設。隨著(zhù)包括算力、數據規模的擴大,模型的能力才能夠持續突破技術(shù)邊界。
2018年,在上海市政府的支持下,商湯在臨港建立AIDC智算中心,目前還在進(jìn)一步擴大規模。截至目前,商湯已經(jīng)有45000塊GPU,包括12000P的算力,為大模型的研發(fā)提供強大的支持。
除了推動(dòng)集團內部的研發(fā),王曉剛表示商湯將來(lái)也會(huì )將這些大裝置基礎設施開(kāi)放給主機廠(chǎng)及其他生態(tài)的合作伙伴,以共同推動(dòng)通用人工智能、大模型的發(fā)展。
僅僅是硬件計算設備的堆砌,并不能將幾千塊甚至上萬(wàn)塊的GPU進(jìn)行有效連接。王曉剛向記者解釋?zhuān)绻麊渭儗⑦@些硬件設備連接起來(lái),會(huì )發(fā)現它只能提升訓練效率30%,因為不同的卡和機器之間要進(jìn)行大量通信、數據的傳輸還有同步,這些都會(huì )大大降低使用效率。并且一萬(wàn)塊卡里如果其中有一塊卡出現故障,那么整個(gè)系統也會(huì )頻繁死機。
因此,商湯開(kāi)發(fā)了一整套軟硬件系統,將整體效率從30%提升到90%,并讓整個(gè)機器系統可以長(cháng)時(shí)間穩定地運行,以順利開(kāi)展大模型研發(fā)工作。
在數據方面,除了自身的數據積累,絕影也和主機廠(chǎng)展開(kāi)了合作。針對車(chē)廠(chǎng)自身的海量數據,絕影可以提供大模型訓練的工具、基礎設施,讓車(chē)廠(chǎng)對模型進(jìn)行迭代。
截至2023年12月,商湯絕影已與超過(guò)30家國內外車(chē)企達成合作,覆蓋超90款車(chē)型,累計交付近200萬(wàn)輛智能汽車(chē)。
除了智能駕駛,商湯日日新的大模型系列已被應用在智能座艙中。小米SU7就使用了商湯的大語(yǔ)言模型和多模態(tài)模型,以提升車(chē)輛的智能化體驗。目前還有十幾家車(chē)廠(chǎng)也在這方面和商湯有所合作,一系列的POC(概念驗證)和量產(chǎn)項目正在落地。
關(guān)于絕影的下一步計劃,王曉剛向界面新聞表示,在汽車(chē)智能化領(lǐng)域,一方面,絕影會(huì )繼續推動(dòng)端到端自動(dòng)駕駛技術(shù)的發(fā)展;另一方面也在積極地把多模態(tài)大模型應用到自動(dòng)駕駛領(lǐng)域,希望能做到在不用手動(dòng)操作的情況下,通過(guò)語(yǔ)言交互就能改變自動(dòng)駕駛的行為。
在車(chē)艙里,絕影也會(huì )進(jìn)一步開(kāi)發(fā)基于大模型智能座艙的整體方案,完善座艙大腦。各種視覺(jué)、語(yǔ)音、自然語(yǔ)言等等也會(huì )被融入到一個(gè)多模態(tài)大模型中去完成各種功能。
另外,現在自動(dòng)駕駛和智能座艙還是需要運行在不同的芯片和域控制器上,但隨著(zhù)技術(shù)的不斷成熟,將來(lái)會(huì )完成艙駕的融合。這樣車(chē)內和車(chē)外各種傳感器的數據也能夠更好的打通,帶來(lái)更快的數據傳輸和更好的用戶(hù)體驗。由于絕影同時(shí)擁有智能駕駛和智能座艙兩個(gè)業(yè)務(wù)方向和產(chǎn)品線(xiàn),所以在推動(dòng)艙駕融合方面會(huì )更有優(yōu)勢。
在更遠的未來(lái),王曉剛認為,很多在智能汽車(chē)里應用到的技術(shù),也會(huì )被應用到機器人的領(lǐng)域里。所以今天汽車(chē)的智能化也為將來(lái)機器人的發(fā)展提供了基礎。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。