「Agent代理人」將是AI競賽新的破局者?
號稱(chēng)“全球首款真正意義上的通用AI Agent”的國產(chǎn)產(chǎn)品Manus風(fēng)頭十足,刷屏海內外社媒。Manus的名字來(lái)源于拉丁語(yǔ)Mens et Manus,意為“mind and hand”,即手腦并用,這也是麻省理工學(xué)院的校訓。
本文引用地址:http://dyxdggzs.com/article/202503/468051.htm值得注意的是,Manus在權威的GAIA(General AI Assistants,通用AI助手)基準測試中創(chuàng )下了新紀錄,全部難度級別中的評分都超越了OpenAI的DeepResearch。Manus的出現標志著(zhù)人機協(xié)作進(jìn)入了一個(gè)新的范式,它可能是通向通用人工智能(AGI)的一個(gè)重要窗口。由于產(chǎn)品處于內測階段,僅以邀請碼形式開(kāi)放使用,Manus急劇進(jìn)入一個(gè)供不應求的狀態(tài)。
經(jīng)過(guò)2023年的百模大戰,2024年的應用之爭,行業(yè)淘汰賽加劇,2025年對于初創(chuàng )企業(yè)而言,落地路線(xiàn)的選擇至關(guān)重要。Manus不僅僅是一個(gè)只會(huì )聊天的對話(huà)式AI工具,它是一個(gè)多模型、多智能體產(chǎn)品,擁有“獨立思考”能力,能夠對復雜的通用任務(wù)進(jìn)行多步驟拆解并執行。只需要告訴它最終目標,Manus就可以靈活調用各類(lèi)工具,自主執行瀏覽網(wǎng)頁(yè)、操作網(wǎng)頁(yè)應用、編寫(xiě)并執行代碼等操作來(lái)實(shí)現。
業(yè)內常規產(chǎn)品中,通行的邏輯是在平臺內整合全球供應鏈企業(yè)信息,來(lái)幫助用戶(hù)完成供貨商/需求方匹配這件事。但在Manus的案例中,你能看到完全不同的實(shí)現方式。Manus與傳統AI助手最大的不同在于自主規劃與執行能力,從“被動(dòng)響應”向“主動(dòng)執行”的跨越,其核心架構通過(guò)多模型協(xié)作將復雜任務(wù)拆解為子目標,并調用外部工具逐步完成。例如,用戶(hù)只需輸入“分析特斯拉股票并制作PPT”,Manus會(huì )自動(dòng)完成數據搜集、分析、圖表生成及PPT排版,全程無(wú)需人工干預。類(lèi)似任務(wù)如簡(jiǎn)歷篩選、房產(chǎn)推薦等,Manus均能通過(guò)虛擬機技術(shù)分解步驟,模擬人類(lèi)工作流。
打開(kāi)Manus界面,有四部分構成,分別是瀏覽器、搜索、編輯器和終端,是把各類(lèi)功能組合封裝好的一款產(chǎn)品。具體來(lái)看,第一步跟ChatGPT一樣有對話(huà)界面,用戶(hù)需要提出具體的訴求,之后操作界面被劃分為了兩部分,左面是對話(huà)界面,右面是終端。當開(kāi)始執行任務(wù)后,左面開(kāi)始識別意圖、制定執行步驟以及開(kāi)始搜索、調用所需的各類(lèi)工具,右面的終端相當于一個(gè)虛擬機,可以同步執行文件處理、代碼生成、搜索瀏覽器等工作。
里面有一個(gè)小插曲,據說(shuō),Manus團隊一開(kāi)始的方向是AI瀏覽器。在偶然看到Arc被放棄后,他們才決定了終止AI瀏覽器的研發(fā)工作?,F在在使用過(guò)程中,也能看到瀏覽器的痕跡。
Manus目前采用「Multiple Agent」架構,運行在獨立的虛擬機中。通過(guò)規劃型Agent負責任務(wù)拆解、執行型Agent調用具體工具、監控驗證Agent跟蹤任務(wù)進(jìn)度和debug等多層代理分工協(xié)作機制,來(lái)大幅提升對復雜任務(wù)的處理效率,并通過(guò)并行計算縮短響應時(shí)間。此外,Manus還具備記憶能力,能夠在執行類(lèi)似任務(wù)時(shí)不斷優(yōu)化和提升自己的工作效率:例如若用戶(hù)習慣以Excel接收結果,后續任務(wù)會(huì )自動(dòng)優(yōu)先生成表格。整個(gè)過(guò)程在云端異步完成,這意味著(zhù)用戶(hù)可以隨時(shí)關(guān)閉電腦,等待結果生產(chǎn)。
在這個(gè)架構中,每個(gè)代理可能基于獨立的語(yǔ)言模型或強化學(xué)習模型,彼此通過(guò)API或消息隊列通信。同時(shí)每個(gè)任務(wù)也都在沙盒中運行,避免干擾其他任務(wù)。專(zhuān)用RL小模型負責系統中最關(guān)鍵的決策環(huán)節:意圖識別、任務(wù)規劃和工具調用。整個(gè)工作流程設計以一份todo.md文件為核心,它兼顧記憶和指揮,解決了AI Agent長(cháng)期面臨的上下文管理難題,并且能夠保持執行反饋與todo.md之間的動(dòng)態(tài)聯(lián)系。
使用Manus過(guò)程中,用戶(hù)能感受到的體驗感更多是跨App操作能力及其可視化過(guò)程帶來(lái)的,而輸出結果的可用性完全有賴(lài)于基礎模型的能力。最近幾個(gè)月的一系列推理模型比如GPT o3、DeepSeek R1、QWQ、Claude 3.7 Sonnet等的發(fā)布甚至開(kāi)源,一定程度上提升了路徑規劃能力、深度研究能力和代碼寫(xiě)作的準確率,為更具生產(chǎn)力的agent提供了可能。
Manus的火爆加速了開(kāi)源社區的創(chuàng )新進(jìn)程,MetaGPT等團隊迅速推出OpenManus、OWL等開(kāi)源項目,通過(guò)復現核心架構推動(dòng)Agent技術(shù)普惠化。開(kāi)源社區的活躍表明,行業(yè)競爭壁壘正從單一模型性能轉向工程化能力,包括工具鏈封裝效率、場(chǎng)景適配性及用戶(hù)體驗優(yōu)化。不過(guò),實(shí)際應用仍需解決模型幻覺(jué)、響應速度等體驗問(wèn)題,這將是下一階段技術(shù)演進(jìn)的重點(diǎn)。
Manus存在的爭議
在Manus的解釋理虛擬機中的計算機應用并不多,主要體現在模擬用戶(hù)點(diǎn)擊、瀏覽和切換工具使用,意義不是十分大。因此Zengyi Qin(MIT博士)認為它在本質(zhì)上還是一個(gè)預先設定的“workflow”,在無(wú)邊界操作系統級環(huán)境(open-ended OS Level environment)中并未取得突破。官網(wǎng)上介紹的智能研究、高級數據分析、任務(wù)自動(dòng)化三大功能其實(shí)也就是Manus的極限了。
Manus真正的殺手锏是它模擬人類(lèi)方式工作方式的能力,它并沒(méi)有做到哪些人類(lèi)當前真正無(wú)法做到的事,這也就是為什么一些已經(jīng)體驗過(guò)的用戶(hù),形容Manus為“一個(gè)實(shí)習生”。而Manus團隊本身并不自研大模型,而是基于業(yè)內大模型開(kāi)發(fā)“套殼”產(chǎn)品,這也是Manus被不少AI業(yè)內人士認為不具備“護城河”、以及在技術(shù)層面并沒(méi)有太多新東西的原因之一。
需要指出的是,根據參加過(guò)溝通會(huì )的行業(yè)人士表述,Manus并不諱言自己是一個(gè)“套殼”產(chǎn)品,其價(jià)值在于工程化創(chuàng )新 —— 通過(guò)逆向工程實(shí)現任務(wù)拆解邏輯的標準化,降低開(kāi)發(fā)門(mén)檻,為行業(yè)提供了可復用的技術(shù)框架。這種將底層模型與工具調用深度集成的模式,或將成為Agent產(chǎn)品的通用范式。
一場(chǎng)產(chǎn)品經(jīng)理式的成功
在Manus獲得如此熱度之后,就如同好奇DeepSeek團隊成員一樣,外界也開(kāi)始關(guān)心這家應用層公司團隊的來(lái)歷。Manus團隊主要成員包括創(chuàng )始人肖弘、產(chǎn)品合伙人張濤和首席科學(xué)家季逸超。其中,張濤曾在字節跳動(dòng)負責國際化產(chǎn)品,隨后在光年之外擔任產(chǎn)品負責人,與肖弘、季逸超共同成立Manus AI并擔任合伙人后,目前負責產(chǎn)品戰略、市場(chǎng)溝通及用戶(hù)體驗優(yōu)化,主導構建了Manus的多代理架構設計,提出“用戶(hù)體驗應從答案交付轉向成果交付”的產(chǎn)品理念。
一個(gè)很明確的事實(shí)是,Manus誕生的必要前提是基座模型的性能提升,但這是過(guò)去兩年來(lái)整個(gè)行業(yè)有目共睹的趨勢,為什么率先讓Agent獲得注意力的會(huì )是Manus?從傳播路徑上來(lái)看,Manus與DeepSeek-R1一樣,爆火是因為成功打出了用戶(hù)體驗上的低門(mén)檻和時(shí)間差。DeepResearch只有200美元/月的ChatGPT Pro用戶(hù)才能夠使用,因而Manus更容易在體驗上形成沖擊。
這是一場(chǎng)產(chǎn)品經(jīng)理式的成功,考驗的是產(chǎn)品設計能力和產(chǎn)品實(shí)現技能。這種能力,是Manus團隊所擅長(cháng)的,也是曾被市場(chǎng)所低估的。
Manus控股公司蝴蝶效應(Butterfly Effect Hong kong)成立于2023年,境內企業(yè)名為北京紅色蝴蝶科技有限公司,還在武漢設有分公司。在Manus之前,主要有兩款產(chǎn)品:2023年初推出號稱(chēng)All-in-One的AI助手瀏覽器插件Monica,接入了ChatGPT等工具的API,可為用戶(hù)提供搜索、閱讀、寫(xiě)作、翻譯、創(chuàng )作等多種任務(wù)的協(xié)助,截至2024年年底,主打海外市場(chǎng)的Monica已經(jīng)擁有了超過(guò)1000萬(wàn)的用戶(hù);另一款則是2023年收購而來(lái)的另一款插件ChatGPT for Google。
現在的Manus距離正式版想交付給大家的體驗還差很遠,像模型幻覺(jué)、交付物友好度、運行速度等方面都還有很大的提升空間。未來(lái),Manus或將基于A(yíng)HPU(Agentic Hours Per User)這一新指標打造出獨屬于A(yíng)I的商業(yè)模式,即衡量用戶(hù)委托AI完成任務(wù)的時(shí)間效率,目標是通過(guò)并行任務(wù)提升生產(chǎn)力,否則很難完成規?;?。目前,Manus通過(guò)KV cache優(yōu)化、推理時(shí)延壓縮、執行流程精簡(jiǎn)等手段,實(shí)現了單次任務(wù)消耗控制在兩美元左右的成本。但是,單次任務(wù)的成本可能只是一個(gè)平均數或中位數,許多動(dòng)輒兩小時(shí)的任務(wù)生成,其消耗成本應該不止于此。
AI的下一個(gè)關(guān)鍵階段
2025年是AI Agent爆發(fā)的元年已經(jīng)成為行業(yè)共識。根據麥肯錫等多份權威報告,在多元化需求驅動(dòng)下,AI Agent市場(chǎng)呈爆發(fā)式增長(cháng)態(tài)勢,2024年全球AI Agent市場(chǎng)規模約為51億美元,預計2030年將飆升至471億美元,復合年增長(cháng)率高達44.8%。
與GPT等對話(huà)式AI不同,AI Agent能像人類(lèi)助手般獨立規劃任務(wù)、調用工具并交付成果。如果說(shuō)大模型讓AI長(cháng)出了“腦”,那AI Agent就是讓AI長(cháng)出了“手和腳”。借用OpenAI前應用研究主管Lilian Weng的經(jīng)典定義,一個(gè)合格的Agent需要三大核心能力:Planning(規劃)、Tool use(工具使用)、Memory(記憶)。
AI Agent的熱潮并非偶然,而是技術(shù)演進(jìn)的必然產(chǎn)物。早在2024年紅杉AI峰會(huì )上,吳恩達教授便預言“AI Agent是AI發(fā)展的下一個(gè)關(guān)鍵階段”。實(shí)際上,市場(chǎng)對AI Agent更早的感知來(lái)自于OpenAI和Anthropic。
· 2024年10月,由OpenAI前研究副總裁達里奧·阿莫迪、大語(yǔ)言模型GPT-3論文的第一作者湯姆·布朗等人共同創(chuàng )立的企業(yè)Anthropic,推出了基于Claude模型的擴展功能Computer Use,用戶(hù)能夠像指揮人類(lèi)一樣指導Claude操作電腦,包括移動(dòng)光標、點(diǎn)擊按鈕和輸入文本。在國內,智譜是最早探索Agent的初創(chuàng )企業(yè),同期推出自主智能體AutoGLM。
· 2025年1月,OpenAI推出基于Computer-Using Agent模型的了首款AI智能體Operator,可以根據用戶(hù)指令,在云端執行任務(wù),如訂餐、制定計劃、購物等。具體來(lái)說(shuō),CUA將GPT-4o的視覺(jué)能力與強化學(xué)習的高級推理能力相結合,經(jīng)過(guò)訓練可以與圖形用戶(hù)界面(GUI)交互,就像人類(lèi)使用鼠標和鍵盤(pán)操作一樣。如果遇到問(wèn)題,Operator可以利用其推理能力自我糾正,遇到故障卡頓、需要幫助時(shí),它會(huì )將控制權還給用戶(hù),就像自動(dòng)駕駛一樣。
可以預判的是,AI Agent是大模型公司不會(huì )錯過(guò)的產(chǎn)品方向,憑借算力、數據等優(yōu)勢,大廠(chǎng)基本都是在模型端、應用端、智能體開(kāi)發(fā)平臺協(xié)同三個(gè)領(lǐng)域閉環(huán)發(fā)展,傾向于以MaaS(模型即服務(wù))形式將Agent嵌入現有應用生態(tài)。大廠(chǎng)們的思路在于,利用AI智能體賦能業(yè)務(wù),完善AI應用生態(tài),提高業(yè)務(wù)及自身在A(yíng)I時(shí)代的競爭力。垂類(lèi)企業(yè)則聚焦行業(yè)Know-how,開(kāi)發(fā)場(chǎng)景化解決方案:例如,工業(yè)軟件廠(chǎng)商可基于A(yíng)gent優(yōu)化生產(chǎn)流程,而網(wǎng)絡(luò )安全企業(yè)可增強威脅響應能力。
大廠(chǎng)現在幾乎人手一個(gè)AI應用,有自研大模型,同時(shí)接入了DeepSeek-R1推理模型,RAG、聯(lián)網(wǎng)搜索更是現成的,原地改造或者再造一個(gè)Manus幾乎不是問(wèn)題。而AI初創(chuàng )企業(yè)布局智能體的思路在于,推出更多可場(chǎng)景化的落地方案,尋找商業(yè)變現的路徑。隨著(zhù)技術(shù)的不斷發(fā)展和市場(chǎng)的逐漸成熟,AI Agent領(lǐng)域的競爭將愈發(fā)激烈,各企業(yè)的產(chǎn)品也將不斷迭代升級,以滿(mǎn)足用戶(hù)日益增長(cháng)的需求。
進(jìn)入2025年,從Operator到Manus,從大廠(chǎng)到獨角獸的競相加速,一場(chǎng)圍繞AI Agent的競逐賽悄然拉開(kāi)帷幕。就像比爾·蓋茨曾說(shuō)的,“誰(shuí)能主宰AI Agent,那才是大事,因為你將永遠不用去搜索網(wǎng)站或者亞馬遜”。Manus的爆火出圈,反映的是大眾對于以Manus為代表的這一類(lèi)AI Agent產(chǎn)品的期待,拋開(kāi)“套殼”帶來(lái)的爭議,當智能體的價(jià)值被更多人看到,智能體時(shí)代有望加速到來(lái)。
評論