<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ChatGPT成功背后的技術(shù)原因及其對生命科學(xué)領(lǐng)域的啟發(fā)

ChatGPT成功背后的技術(shù)原因及其對生命科學(xué)領(lǐng)域的啟發(fā)

發(fā)布人:傳感器技術(shù) 時(shí)間:2023-02-21 來(lái)源:工程師 發(fā)布文章


文章作者:碳硅智慧CEO 鄧亞峰

(本文轉自DrugFlow公眾號,全文共有6986字)ChatGPT是OpenAI開(kāi)發(fā)的一個(gè)基于文本生成技術(shù)的對話(huà)機器人,以其驚艷的效果迅速出圈,在這個(gè)低迷的2023年初,憑著(zhù)一己之力重新掀起了AI領(lǐng)域的熱潮。早在上個(gè)世紀五十年代,就有學(xué)者提出了人工智能(Artificial Intelligence)的概念,其目的是希望讓計算機擁有人類(lèi)智能(或部分人類(lèi)智能)。這個(gè)領(lǐng)域經(jīng)過(guò)很多年的發(fā)展,依然沒(méi)有突破,直到2012年出現了深度學(xué)習技術(shù)。深度學(xué)習主要解決了模型表示能力的瓶頸。我們面對的建模問(wèn)題,比如圖像理解、語(yǔ)言翻譯、語(yǔ)音識別、分子-蛋白結合構象預測等技術(shù),都是非常復雜的非線(xiàn)性問(wèn)題,在深度學(xué)習出現之前,模型表示能力很弱,無(wú)法對這些復雜問(wèn)題進(jìn)行精確表示。而深度學(xué)習技術(shù),可以通過(guò)模型的層次堆疊,理論上可以構建任意深度的模型,突破了模型表示能力的瓶頸,從而在語(yǔ)音識別、計算機視覺(jué)、自然語(yǔ)言理解等領(lǐng)域取得了突破性進(jìn)展。深度學(xué)習技術(shù)的出現標志著(zhù)人工智能進(jìn)入到一個(gè)新的階段,我們姑且把2012年左右開(kāi)始的通過(guò)深度學(xué)習驅動(dòng)的人工智能浪潮叫作新一代人工智能時(shí)代(實(shí)際上在語(yǔ)音識別領(lǐng)域深度學(xué)習應用可以追溯到最早,但是鑒于后續很多深度學(xué)習的進(jìn)步都來(lái)自于計算機視覺(jué)領(lǐng)域,所以,我們以2012年AlexNet出現作為起點(diǎn))。這個(gè)時(shí)期,可以認為是深度學(xué)習驅動(dòng)的新一代人工智能的第一個(gè)階段,即標注數據驅動(dòng)的深度學(xué)習模型,大幅提高了模型表示能力,從而推動(dòng)人工智能技術(shù)顯著(zhù)提升,并且在計算機視覺(jué)和語(yǔ)音識別領(lǐng)域獲得了產(chǎn)品和商業(yè)上的成功。這個(gè)階段的主要局限,是非常依賴(lài)于標注數據的數量。由于模型參數變多,想要求解這么多的模型參數,需要大量的訓練數據作為約束。而想獲得大量的標注數據非常貴,到億級別之后就很難再有提升,數據支撐的有效模型大小也受到限制。2012-2015年這段時(shí)間,計算機視覺(jué)是最活躍的領(lǐng)域,出現了包括ResNet在內的各種深度網(wǎng)絡(luò )模型。2017年,一個(gè)重要的基礎工作Transformer出現了。2019年,在一直未能有重大突破的自然語(yǔ)言處理(NLP)領(lǐng)域,一個(gè)叫作BERT的工作脫穎而出,在十幾個(gè)不同的自然語(yǔ)言處理領(lǐng)域(NLP)任務(wù)中都取得了最好的結果,這些任務(wù)之間的差別很大,所以BERT工作發(fā)表后,馬上引起了整個(gè)領(lǐng)域的關(guān)注。BERT采用了一個(gè)叫作自監督預訓練的思路,無(wú)需標注數據僅利用文本語(yǔ)料本身存在的約束就可以訓練模型(比如某句話(huà)的某個(gè)位置只能用某些限定的詞),這樣互聯(lián)網(wǎng)上存在的優(yōu)質(zhì)語(yǔ)料不需要進(jìn)行人工標定就可以用來(lái)做訓練,從而一下子使得可用訓練數據的數量有了巨大的提高,再配合上大模型,使得BERT模型的效果遠遠超過(guò)過(guò)去的模型,并且在不同任務(wù)間具有很好的通用性,成為NLP領(lǐng)域里程碑工作之一。其實(shí)在BERT出現之前的2018年,還有個(gè)工作叫作GPT(即GPT1.0),更早利用了自監督預訓練的思路來(lái)做文本生成,即輸入前面的文本,模型預測輸出后面的文本,領(lǐng)域里面的優(yōu)質(zhì)語(yǔ)料無(wú)需標注就可以做訓練。BERT和GPT都是在Transformer基礎上發(fā)展而來(lái)的,而Transformer也逐漸發(fā)展成為AI領(lǐng)域的通用模型。GPT1.0的效果并不驚艷。在BERT出現后不久,GPT很快發(fā)布了GPT2.0,模型大小和訓練數據量都有大幅提升,作為通用模型(即不用下游任務(wù)做訓練,直接測試結果)在大多數任務(wù)上結果好于現有模型。但由于BERT模型在特征表示上比GPT2.0模型更有優(yōu)勢,也更容易訓練,所以這個(gè)階段領(lǐng)域里最受關(guān)注的工作還是BERT。但2020年7月,GPT3.0橫空出世,以1700億參數驚艷四座,更重要的是,在效果上,GPT3.0作為一個(gè)通用語(yǔ)言模型,只需向它提供一段簡(jiǎn)單描述,說(shuō)明想生成的內容,就可以在無(wú)需重新訓練的情況下,根據提示,生成可執行代碼,生成網(wǎng)頁(yè)或圖標,完成一篇文章或新聞,還可以編寫(xiě)詩(shī)歌和音樂(lè )。GPT3.0出現后,受到了行業(yè)的廣泛關(guān)注,很多開(kāi)發(fā)者基于GPT3.0做了很多好玩的應用。GPT3.0成為最好也最受關(guān)注的文本生成模型。在自監督預訓練技術(shù)出現之后,我們可以認為新一代人工智能發(fā)展到了第二個(gè)階段,即自監督預訓練技術(shù)使得可用訓練數據有了幾個(gè)數量級的提升,在訓練數據大幅提升的支撐下,模型大小也有了數個(gè)數量級的提升(有效模型達到了千億規模),而在模型效果上,這些模型變得不再依賴(lài)于下游任務(wù)領(lǐng)域數據的再訓練,所以,領(lǐng)域進(jìn)入到基于自監督預訓練的通用大模型時(shí)代。之后,GPT3.0與領(lǐng)域其他工作一起引發(fā)了一波模型大小的軍備競賽,但鮮有真正有突破的技術(shù)出現。大家意識到僅僅增加模型大小,并不能根本上解決問(wèn)題。就在大家期待GPT4.0等后續工作出現的時(shí)候,整整兩年過(guò)去,GPT一直沒(méi)有更新。這段時(shí)間內,人工智能領(lǐng)域最活躍的工作主要集中在兩個(gè)方面,多模態(tài)統一模型和內容生成。多模態(tài)統一模型,希望構建多模態(tài)或跨模態(tài)統一模型,嘗試將文本、圖像、語(yǔ)音等不同模態(tài)數據統一表示在一個(gè)模型中,其中包括最早的跨模態(tài)表示模型CLIP,和后續的一系列多模態(tài)統一表示模型。而內容生成領(lǐng)域,一方面在技術(shù)層面,出現了擴散模型(Diffusion Model)這樣的基礎模型,Diffusion Model及一系列變種模型的發(fā)展,使得人工智能內容生成(AI Generated Content,即AIGC)領(lǐng)域變得非常熱,從圖像生成領(lǐng)域擴展到自然語(yǔ)言處理和生命科學(xué)領(lǐng)域;另一方面在應用層面,基于文本生成圖像領(lǐng)域取得了很多實(shí)質(zhì)進(jìn)展,其中最有代表性的工作DALLE2,模型能夠按照輸入的文本描述輸出看起來(lái)很真實(shí)的圖像,即使在文本描述超越了現實(shí)的情況下,依然可以生成看似合理符合文本描述的圖像,如下圖所示。DALLE2等一系列工作的成功,一方面歸功于大量的文本-圖像對應關(guān)系數據(大約有數億對),建模了文本和圖像語(yǔ)義之間的對應關(guān)系,另外一方面歸功于擴散模型克服了GAN、VAE等模型難訓練、生成效果細節保留不夠等缺陷。圖像生成效果的驚艷,甚至讓很多人相信AI已經(jīng)可以創(chuàng )造內容了。圖片

圖. DALLE2生成效果

時(shí)間來(lái)到了2022年11月底,OpenAI發(fā)布了ChatGPT。ChatGPT發(fā)布后,大家發(fā)現這個(gè)聊天機器人很不一般,經(jīng)常給出令人驚艷的回答。對話(huà)機器人領(lǐng)域曾出現過(guò)很多個(gè)對話(huà)機器人,比如蘋(píng)果的Siri,微軟的小冰小娜等,這些通用對話(huà)系統的體驗都不是非常理想,大家拿來(lái)調戲一下就扔到了一邊。而智能音箱等產(chǎn)品中使用的指令執行式問(wèn)答機器人,系統框架是基于規則驅動(dòng)的對話(huà)管理系統,存在大量的手工規則,使得這些系統一方面無(wú)法擴展到通用領(lǐng)域,只能進(jìn)行簡(jiǎn)單程式化的回答,另一方面,無(wú)法處理多輪對話(huà)的環(huán)境語(yǔ)義信息(Context)。從技術(shù)層面看,ChatGPT和原來(lái)主流的對話(huà)系統完全不同,整個(gè)系統基于一個(gè)深度生成大模型,對于給定的輸入,經(jīng)過(guò)深度模型的處理,直接輸出抽象總結性的回答。而在產(chǎn)品體驗上,ChatGPT也遠遠超越了過(guò)去的聊天系統。作為一個(gè)通用聊天機器人,它幾乎可以回答任何領(lǐng)域的問(wèn)題,而且準確率已經(jīng)達到人類(lèi)愿意持續使用的要求,在多輪對話(huà)的場(chǎng)景下依然保持非常好的體驗。當然,ChatGPT并不完美,作為一個(gè)深度學(xué)習模型,ChatGPT存在無(wú)法百分之百精準的缺陷,對于一些需要精確回答的問(wèn)題(比如數學(xué)計算、邏輯推理或人名等),會(huì )出現一些可感知的明顯錯誤。后面又出現了一些改進(jìn)工作,比如有些工作會(huì )提供信息的參考網(wǎng)頁(yè)鏈接,而在Facebook最新的工作ToolFormer中,則嘗試在生成模型中,將特定任務(wù)交給特定API去計算,不走通用模型,這有望克服模型無(wú)法百分之百精準的問(wèn)題。如果這條路走通,深度生成模型有望成為AGI的核心框架,用插件方式集成其他技能API,想想就很激動(dòng)人心。商業(yè)上,ChatGPT一方面引發(fā)了對于Google等搜索引擎挑戰的暢想,另一方面,大家看到了各種自然語(yǔ)言理解有關(guān)的垂直產(chǎn)品應用機會(huì )。無(wú)疑,ChatGPT在自然語(yǔ)言理解領(lǐng)域正掀起一次可能媲美搜索推薦的新商業(yè)機會(huì )。ChatGPT為什么能有這樣驚艷的效果?其中一個(gè)核心原因是ChatGPT基于生成大模型GPT3.5構建,這應該是當前自然語(yǔ)言理解領(lǐng)域文本生成最好的模型(GPT3.5比GPT3.0使用了更多的數據和更大的模型,具有更好的效果)。第二個(gè)核心原因則是基于人類(lèi)反饋的強化學(xué)習技術(shù),即Reinforcement Learning from Human Feedback(簡(jiǎn)寫(xiě)作RLHF)。由于OpenAI并沒(méi)有發(fā)表ChatGPT的論文,也沒(méi)有代碼公開(kāi),大家一般認為其與之前的一篇文章InstructGPT(https://arxiv.org/pdf/2203.02155.pdf)中批露的技術(shù)最為相近。如下圖所示,按照InstructGPT中的描述,第一步,先收集用戶(hù)對于同一問(wèn)題不同答案的偏好數據;第二步,利用這個(gè)偏好數據重新訓練GPT模型,這一步是基于監督信息的精調;第三步,根據用戶(hù)對于不同答案的偏好,訓練一個(gè)打分函數,對于ChatGPT的答案會(huì )給出分數,這個(gè)分數會(huì )體現出用戶(hù)對于不同答案的偏好;第四步,用這個(gè)打分函數作為強化學(xué)習的反饋(Reward)訓練強化學(xué)習模型,使得ChatGPT最終輸出的答案更偏向于用戶(hù)喜歡的答案。通過(guò)上述過(guò)程,ChatGPT在GPT3.5的基礎上,針對用戶(hù)輸入,輸出對用戶(hù)更友好的回答。圖片ChatGPT第一階段訓練GPT生成模型使用的訓練數據非常多,大約在幾十TB,訓練一次模型需要花費千萬(wàn)美元,而第二個(gè)階段,基于強化學(xué)習的少量?jì)?yōu)質(zhì)數據反饋則只需要數萬(wàn)條優(yōu)質(zhì)數據。我們可以看到,ChatGPT技術(shù),是在自監督預訓練大模型基礎上結合基于人類(lèi)反饋的強化學(xué)習技術(shù),取得了非常顯著(zhù)的進(jìn)展。這種新的范式,有可能成為第三階段人工智能的核心驅動(dòng)技術(shù),即首先基于自監督預訓練的大模型,再結合基于少量?jì)?yōu)質(zhì)數據反饋的強化學(xué)習技術(shù),形成模型和數據的閉環(huán)反饋,獲得進(jìn)一步的技術(shù)突破。關(guān)于ChatGPT,我們的觀(guān)點(diǎn)如下:(1)ChatGPT確實(shí)是這個(gè)時(shí)代最偉大的工作之一,讓我們看到了基于自監督預訓練的生成大模型與基于少量?jì)?yōu)質(zhì)數據強化學(xué)習反饋策略結果后AI的驚艷效果,某種意義上改變了我們的認知。(2)ChatGPT相關(guān)技術(shù)具有非常大的商業(yè)價(jià)值,使得搜索引擎在內的很多產(chǎn)品都面臨被重構或者顛覆的機會(huì ),無(wú)疑會(huì )帶來(lái)很多新的商業(yè)機會(huì ),整個(gè)NLP領(lǐng)域都會(huì )受益。(3)基于自監督預訓練的生成大模型與基于少量?jì)?yōu)質(zhì)數據強化學(xué)習反饋策略的學(xué)習范式,有望成為未來(lái)推動(dòng)各個(gè)領(lǐng)域前進(jìn)的動(dòng)力,除NLP領(lǐng)域外,有望在生命科學(xué)、機器人、自動(dòng)駕駛等各個(gè)領(lǐng)域引發(fā)新一輪人工智能熱潮。(4)ChatGPT并不能證明人工智能已經(jīng)有了人類(lèi)心智,ChatGPT表現出來(lái)的一些創(chuàng )造性和心智,是因為自然語(yǔ)言理解語(yǔ)料中包含了語(yǔ)義、邏輯,基于自然語(yǔ)言語(yǔ)料訓練出來(lái)的生成模型,統計意義上學(xué)習到了這些對應關(guān)系,看起來(lái)似乎有了智能,但并不是真的有人類(lèi)心智。ChatGPT很棒,但說(shuō)他智力等于幾歲小朋友的說(shuō)法,都不夠嚴謹。因為從根本上講,人學(xué)習新知識、進(jìn)行邏輯推理、想象、運動(dòng)反饋這些能力,目前AI還沒(méi)有具備。過(guò)度炒作ChatGPT的智能和能力,會(huì )劣幣驅逐良幣,損害整個(gè)行業(yè)。(5)在這個(gè)領(lǐng)域,中國的技術(shù)還有差距,過(guò)去兩年,我們還沒(méi)有看到真正復制出GPT3.0效果的文本生成模型,而沒(méi)有GPT3.0和3.5,就不會(huì )有ChatGPT。GPT3、GPT3.5和ChatGPT等工作都沒(méi)有開(kāi)源,甚至API都對中國做了封鎖,這都是復制工作實(shí)際面臨的困難。說(shuō)得悲觀(guān)一點(diǎn),大部分想復制ChatGPT效果的團隊,都不會(huì )成功。(6)ChatGPT并不是一兩個(gè)研究人員做出的算法突破,而是在先進(jìn)理念指導下,非常復雜的算法工程體系創(chuàng )造出來(lái)的成果,需要在團隊和組織上匹配(類(lèi)比OpenAI和DeepMind)。純研究型的團隊恐怕不能成功,對深度學(xué)習理解不夠、太工程化的團隊也不會(huì )成功。這只團隊需要:第一要有足夠資源支持,可以支撐昂貴的深度學(xué)習訓練和人才招聘;第二要有真正在工業(yè)界領(lǐng)導過(guò)工程化大模型團隊的專(zhuān)家領(lǐng)導,ChatGPT不僅有算法創(chuàng )新,更是工程體系創(chuàng )新;第三,也可能是最重要的,需要一個(gè)團結協(xié)作有統一領(lǐng)導且不追求論文發(fā)表的組織(松散型的組織利于算法創(chuàng )新,但不利于工程化算法攻堅),且配備足夠多優(yōu)秀的工程和算法人才。(7)我們不僅追求做一個(gè)ChatGPT,更要持續追求其背后的技術(shù)創(chuàng )新,即大力發(fā)展自監督預訓練生成大模型和基于少量?jì)?yōu)質(zhì)數據的強化學(xué)習反饋策略技術(shù),這既是下一代ChatGPT的核心技術(shù),也是推動(dòng)人工智能領(lǐng)域整體進(jìn)步的技術(shù)。最擔心的是,由于投機追風(fēng),造成力量分散而使大量資源被浪費,或者過(guò)度宣傳ChatGPT損害了行業(yè)。(8) ChatGPT還存在改進(jìn)空間,也不是唯一值得關(guān)注和期待的技術(shù)。對于A(yíng)I,最常見(jiàn)的誤區是,高估其短期表現,而低估其長(cháng)期表現。這是一個(gè)AI成為核心推動(dòng)力的偉大時(shí)代,但AI并不會(huì )那么快無(wú)所不能,需要我們長(cháng)期努力。這里,我們簡(jiǎn)單總結一下2012年以來(lái)深度學(xué)習引起的新一代人工智能浪潮里面的關(guān)鍵技術(shù)演進(jìn):(1)第一個(gè)階段,關(guān)鍵進(jìn)展是標記數據驅動(dòng)的有監督深度學(xué)習模型,大幅提高了模型表示能力,從而推動(dòng)人工智能技術(shù)顯著(zhù)進(jìn)步,這個(gè)階段最活躍的是計算機視覺(jué)和語(yǔ)音識別領(lǐng)域,主要的局限是有標記數據比較貴,限制了可以獲得的數據量,進(jìn)而限制了數據能支撐的有效模型大小。(2)第二個(gè)階段,關(guān)鍵進(jìn)展是自監督預訓練大數據驅動(dòng)的通用大模型,自監督預訓練技術(shù)使得可用訓練數據有了幾個(gè)數量級的提升,從而支撐著(zhù)模型大小也有了數個(gè)數量級的提高,成為無(wú)需依賴(lài)下游任務(wù)領(lǐng)域數據再訓練的通用模型,這個(gè)階段進(jìn)步最大、最活躍的是自然語(yǔ)言理解領(lǐng)域;主要的局限在于需要海量數據訓練,且模型非常大,訓練和使用都非常昂貴,重新訓練垂直場(chǎng)景模型也非常不方便。(3)第三個(gè)階段,目前雖然還不能蓋棺論定,但呈現出一定趨勢。未來(lái)非常重要的技術(shù)關(guān)鍵在于,能否在大模型的基礎上,用強化學(xué)習、Prompting等方式,僅通過(guò)少量?jì)?yōu)質(zhì)數據就能顯著(zhù)影響大模型的輸出結果。如果這個(gè)技術(shù)走通,那么無(wú)人駕駛、機器人以及生命科學(xué)等數據獲取昂貴的領(lǐng)域將顯著(zhù)受益。過(guò)去,如果想改善AI模型存在的問(wèn)題,必須采集大量的數據重新訓練模型。假如,在需要線(xiàn)下交互的機器人領(lǐng)域,在預訓練大模型的基礎上,僅通過(guò)告知機器人真實(shí)場(chǎng)景中一些正確和錯誤的動(dòng)作選擇就能影響機器人的決策,那么無(wú)人駕駛和機器人領(lǐng)域在技術(shù)迭代上會(huì )更加高效。生命科學(xué)領(lǐng)域,如果僅通過(guò)少量的試驗數據反饋,就能顯著(zhù)影響模型預測結果的話(huà),整個(gè)生命科學(xué)領(lǐng)域與計算融合的革命將會(huì )來(lái)得更快一些。在這一點(diǎn)上,ChatGPT是非常重要的里程碑,相信后面還會(huì )有非常多的工作出現。讓我們把目光回到我們更關(guān)注的生命科學(xué)領(lǐng)域。由于ChatGPT帶來(lái)的技術(shù)進(jìn)步改善了大多數NLP相關(guān)領(lǐng)域,所以,生命科學(xué)領(lǐng)域內和信息查詢(xún)檢索抽取有關(guān)的技術(shù)和產(chǎn)品,會(huì )優(yōu)先受益。例如,在未來(lái)有沒(méi)有可能出現一個(gè)生命科學(xué)領(lǐng)域對話(huà)方式的垂直搜索引擎,專(zhuān)家可以向它詢(xún)問(wèn)任何問(wèn)題(比如關(guān)于疾病、靶點(diǎn)、蛋白等有關(guān)的問(wèn)題),它一方面可以給出綜合趨勢的判定(也許沒(méi)有那么精確,但大概正確,有助于我們快速了解一個(gè)領(lǐng)域),另一方面可以給出關(guān)于某個(gè)話(huà)題的相關(guān)有價(jià)值資料,這無(wú)疑會(huì )顯著(zhù)改善專(zhuān)家的信息處理效率。還例如,能否構建一個(gè)AI醫生,病人可以咨詢(xún)有關(guān)疾病的知識和處理辦法(限于技術(shù)的局限,AI無(wú)法給出精確的答案,更無(wú)法代替醫生),但可以給出很多信息參考和后續該做什么的建議,其體驗一定會(huì )顯著(zhù)優(yōu)于現在的搜索引擎。生命科學(xué)領(lǐng)域本身還存在很多沒(méi)有被解決的重要任務(wù),比如小分子-蛋白結合構象和親和力預測、蛋白-蛋白相互作用預測、小分子表示和性質(zhì)預測、蛋白質(zhì)性質(zhì)預測、小分子生成、蛋白質(zhì)設計、逆合成路線(xiàn)設計等任務(wù)。目前看這些問(wèn)題還沒(méi)有被完美解決,如果在這些任務(wù)上取得突破,那么****物發(fā)現甚至整個(gè)生命科學(xué)領(lǐng)域,都會(huì )迎來(lái)巨大變化。基于大模型的AIGC領(lǐng)域,以及基于專(zhuān)家或試驗反饋的RLHF領(lǐng)域,受益于ChatGPT的推動(dòng),一定會(huì )引來(lái)一輪新的技術(shù)進(jìn)步。其中AIGC(人工智能內容生成)技術(shù),在過(guò)去一年中,已經(jīng)在小分子生成、蛋白質(zhì)設計等領(lǐng)域取得了不錯的進(jìn)展。我們預測,在不遠的未來(lái),下列任務(wù)將顯著(zhù)受益于A(yíng)IGC生成技術(shù)的發(fā)展,產(chǎn)生技術(shù)階躍:(1)小分子生成和優(yōu)化技術(shù),即如何不依賴(lài)活性配體信息,而是基于蛋白口袋結構信息生成綜合考慮活性、成****性、可合成性等多種條件約束的配體小分子,這部分技術(shù)將顯著(zhù)受益于A(yíng)IGC領(lǐng)域的發(fā)展;(2)構象預測某種意義上可以看作是生成問(wèn)題,小分子和蛋白結合構象預測任務(wù)也會(huì )受益于A(yíng)IGC相關(guān)技術(shù)的發(fā)展;(3)蛋白質(zhì)、多肽、AAV等序列設計領(lǐng)域,也一定會(huì )受益于A(yíng)IGC技術(shù)的發(fā)展。上述AIGC相關(guān)任務(wù),以及幾乎所有需要試驗驗證反饋的任務(wù),包括但不限于活性預測、性質(zhì)預測、合成路線(xiàn)設計等,都將有機會(huì )受益于RLHF技術(shù)帶來(lái)的紅利。當然也存在很多挑戰。受限于可用數據數量,當前生命科學(xué)領(lǐng)域使用的生成模型還比較淺,主要使用的是GNN等淺層深度學(xué)習模型(GNN受限于消息傳遞的平滑性,層數只能使用到3層左右),生成效果上雖然體現了很好的潛力,但依然沒(méi)有ChatGPT那樣驚艷。而基于專(zhuān)家或試驗反饋的強化學(xué)習技術(shù),受限于試驗數據產(chǎn)生速度以及生成模型表示能力不夠的影響,驚艷效果呈現也會(huì )需要一定的時(shí)間。但從ChatGPT技術(shù)演進(jìn)趨勢推演,如果能訓練足夠深、表示能力足夠強的生成大模型,并且利用強化學(xué)習,基于少量?jì)?yōu)質(zhì)試驗數據或者專(zhuān)家反饋來(lái)進(jìn)一步提升生成大模型的效果,我們可以預期A(yíng)IDD領(lǐng)域一定會(huì )迎來(lái)一次革命。簡(jiǎn)而言之,ChatGPT不僅是自然語(yǔ)言理解領(lǐng)域的一項技術(shù)進(jìn)步,會(huì )引發(fā)新一輪信息服務(wù)和內容生成領(lǐng)域的商業(yè)潮流,同時(shí),其背后基于海量數據的深度生成技術(shù),以及基于人類(lèi)反饋的強化學(xué)習技術(shù),是更長(cháng)遠的進(jìn)步動(dòng)力,會(huì )引起生命科學(xué)等領(lǐng)域的長(cháng)足發(fā)展。我們會(huì )再迎來(lái)一次AI技術(shù)進(jìn)步和產(chǎn)業(yè)落地的浪潮。



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: ChatGPT

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>