<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > 谷歌 DeepMind 發(fā)布 WebLI-100B：千億級數據集解鎖 AI 視覺(jué)語(yǔ)言模型的文化多樣性

谷歌 DeepMind 發(fā)布 WebLI-100B：千億級數據集解鎖 AI 視覺(jué)語(yǔ)言模型的文化多樣性

作者：時(shí)間：2025-02-14 來(lái)源：IT之家

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

2 月 14 日消息，科技媒體 marktechpost 昨日（2 月 13 日）發(fā)布博文，報道稱(chēng)谷歌 DeepMind 團隊發(fā)布了 WebLI-100B 千億級數據集，并通過(guò)增強文化多樣性和多語(yǔ)言性，以及減少子組之間的性能差異來(lái)提高包容性。

本文引用地址：http://dyxdggzs.com/article/202502/466971.htm

目前挑戰

注：機器通過(guò)學(xué)習大型數據集來(lái)連接圖像和文本，數據越多，模型識別模式和提高準確性的能力就越強。視覺(jué)語(yǔ)言模型 (VLMs) 依賴(lài)這些數據集執行圖像字幕和視覺(jué)問(wèn)答等任務(wù)。

視覺(jué)語(yǔ)言模型目前依賴(lài)于 Conceptual Captions 和 LAION 等大型數據集，包含數百萬(wàn)到數十億的圖像-文本對。這些數據集支持零樣本分類(lèi)和圖像字幕生成，但其發(fā)展已放緩至約 100 億對。

這種限制降低了進(jìn)一步提高模型精度、包容性和多語(yǔ)言理解的前景，現有方法基于網(wǎng)絡(luò )爬取的數據，存在樣本質(zhì)量低、語(yǔ)言偏差和多元文化代表性不足等問(wèn)題。

WebLI-100B 千億級數據集

Google DeepMind 的研究人員為了緩解視覺(jué)語(yǔ)言模型在文化多樣性和多語(yǔ)言性方面的局限性，提出了 WebLI-100B 數據集，該數據集包含 1000 億個(gè)圖像-文本對，比之前的數據集大十倍。

該數據集捕獲了罕見(jiàn)的文化概念，并提高了模型在低資源語(yǔ)言和多樣化表示等較少探索領(lǐng)域的性能。與先前的數據集不同，WebLI-100B 不是依賴(lài)嚴格的過(guò)濾（通常會(huì )刪除重要的文化細節），而是專(zhuān)注于擴展數據。

該框架涉及在 WebLI-100B 數據集的不同子集（1B、10B 和 100B）上預訓練模型，以分析數據縮放的影響。

在完整數據集上訓練的模型在文化和多語(yǔ)言任務(wù)中的表現優(yōu)于在較小數據集上訓練的模型，即使使用相同的計算資源。該數據集沒(méi)有進(jìn)行激進(jìn)的過(guò)濾，而是保留了語(yǔ)言和文化元素的廣泛代表性，使其更具包容性。

研究結果表明，將數據集大小從 10B 增加到 100B 對以西方為中心的基準測試的影響很小，但在文化多樣性任務(wù)和低資源語(yǔ)言檢索方面帶來(lái)了改進(jìn)。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI 智能計算 大語(yǔ)言模型

評論

相關(guān)推薦

Canalys：今年 Q2 全球 AI PC 出貨 880 萬(wàn)臺，占該季 PC 總出貨量 14%

消費電子 AI PC 筆記本電腦智能計算 | 2024-08-14

深度剖析新能源汽車(chē)主流 AI 芯片選型

汽車(chē)電子 AI 汽車(chē)電子智能計算 | 2025-02-10

Gartner：中國大語(yǔ)言模型價(jià)格戰推動(dòng)人工智能加速上云

智能計算 Gartner 大語(yǔ)言模型價(jià)格戰 | 2024-10-11

谷歌 DeepMind 發(fā)布 WebLI-100B：千億級數據集解鎖 AI 視覺(jué)語(yǔ)言模型的文化多樣性

智能計算 AI 智能計算大語(yǔ)言模型 | 2025-02-14

2023英特爾On技術(shù)創(chuàng )新大會(huì )中國站“劇透”：五大專(zhuān)題論壇，全面賦能AI開(kāi)發(fā)

nakey | 2023-12-11

進(jìn)博會(huì )開(kāi)幕在即高通邀您體驗智能計算引領(lǐng)的未來(lái)科技浪潮

智能計算第七屆中國國際進(jìn)口博覽會(huì ) 進(jìn)博會(huì ) 高通智能計算 | 2024-11-04

國產(chǎn)大模型 DeepSeek-V3 開(kāi)源：6710 億參數自研 MoE，性能和 GPT-4o 不分伯仲

智能計算 DeepSeek-V3 AI 大語(yǔ)言模型人工智能 | 2024-12-27

AI 初創(chuàng )公司 Perplexity 希望估值翻倍至 80 億美元，擬在新一輪融資中籌集約 5 億美元

智能計算 AI 智能計算 Perplexity | 2024-10-21

美國 AI 營(yíng)銷(xiāo)龍頭 AppLovin 股價(jià)飆升 36.45% 創(chuàng )歷史新高，Q4 業(yè)績(jì)超預期

智能計算 AI 智能計算市場(chǎng)分析 | 2025-02-14

AI“軍備競賽”再提速！亞馬遜(AMZN.US)推出全新芯片陣列和大語(yǔ)言模型

智能計算 AI 亞馬遜 AMZN.US 芯片陣列大語(yǔ)言模型 | 2024-12-04

Omdia：預計 2029 年生成式 AI 市場(chǎng)規模達 728 億美元

智能計算 AI 智能計算市場(chǎng)分析 | 2024-12-11

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>