彭博開(kāi)發(fā)BloombergGPT 提供專(zhuān)于金融A(yíng)I信息服務(wù)
美國財經(jīng)信息公司彭博(Bloomberg)近日宣布研發(fā)自有聊天機器人BloombergGPT,盼推出專(zhuān)于金融領(lǐng)域的人工智能(AI)信息處理應用,以提供客戶(hù)和記者更好的功能與服務(wù)。
美國新聞業(yè)網(wǎng)站尼曼實(shí)驗室(Nieman Lab)報導,彭博3月31日發(fā)表研究論文詳述BloombergGPT的開(kāi)發(fā)。據彭博介紹,BloombergGPT是「一個(gè)新的大規模生成式AI模型。這個(gè)大型語(yǔ)言模型(LLM)專(zhuān)門(mén)鎖定范圍廣泛的金融數據來(lái)訓練生成,目的為了支持多元化的金融產(chǎn)業(yè)自然語(yǔ)言處理(NLP)任務(wù)集」。
彭博表示,近期以大型語(yǔ)言模型為基礎的人工智能發(fā)展,已在許多領(lǐng)域展示出令人振奮的新應用;但金融領(lǐng)域因其復雜性及具有專(zhuān)門(mén)術(shù)語(yǔ),有必要有專(zhuān)屬模型。因此BloombergGPT的推出,代表將聊天機器人這項新科技開(kāi)發(fā)應用到金融產(chǎn)業(yè)的第一步。
彭博指出,BloombergGPT將協(xié)助其改善現有金融相關(guān)自然語(yǔ)言處理的任務(wù),例如文本情感分析、命名實(shí)體辨識(NER)、新聞分類(lèi)、回答問(wèn)題和其他功能。此外,它也創(chuàng )造新機會(huì )來(lái)排列可從彭博終端機取得的巨量數據,以提供客戶(hù)更好的協(xié)助。
至于BloombergGPT的訓練規模,彭博表示它的語(yǔ)料庫有7000億余個(gè)token(字詞碎片)。相較之下,熱門(mén)聊天機器人ChatGPT的開(kāi)發(fā)公司OpenAI在2020年推出的模型GPT-3,訓練的語(yǔ)料庫則約有5000億個(gè)token。
根據彭博說(shuō)法,BloombergGPT的語(yǔ)料庫中,有3630億個(gè)token取自彭博自有金融數據,也就是來(lái)自彭博終端機的數據庫,彭博號稱(chēng)這是「至今最大的特定領(lǐng)域數據集(dataset)」;其余3450億個(gè)token則是取自其他來(lái)源的通用數據集。
彭博還說(shuō),訓練數據分為財金類(lèi)FinPile和一般The Pile兩類(lèi)。其中FinPile包括彭博檔案庫中的各類(lèi)英文金融文件,如新聞文章、公告、新聞稿、網(wǎng)頁(yè)內容和社群媒體數據,以及彭博記者撰寫(xiě)的新聞以外所有的新聞來(lái)源。
至于The Pile則是龐雜的語(yǔ)料庫,來(lái)源從YouTube的畫(huà)面擷取、文藝數字化的古騰堡計劃(Project Gutenberg)到AI訓練常見(jiàn)的安隆公司(Enron)電郵快取。
究竟BloombergGPT能夠如何應用?尼曼實(shí)驗室的文章表示,按照其訓練原理,它應該具有像ChatGPT的功能,但此外也能處理與彭博需求更相關(guān)的任務(wù),例如將自然語(yǔ)言指令翻譯成彭博查詢(xún)語(yǔ)言(Bloomberg Query Language)終端機的用戶(hù)偏好功能。
BloombergGPT也能為新聞文章提議具有彭博新聞風(fēng)格的標題。彭博還說(shuō),BloombergGPT更能勝任回答與商業(yè)有關(guān)的提問(wèn),無(wú)論是有關(guān)文本情感分析、分類(lèi)、資料擷取或任何其他任務(wù)。
評論