谷歌 DeepMind 發(fā)布 WebLI-100B:千億級數據集解鎖 AI 視覺(jué)語(yǔ)言模型的文化多樣性
2 月 14 日消息,科技媒體 marktechpost 昨日(2 月 13 日)發(fā)布博文,報道稱(chēng)谷歌 DeepMind 團隊發(fā)布了 WebLI-100B 千億級數據集,并通過(guò)增強文化多樣性和多語(yǔ)言性,以及減少子組之間的性能差異來(lái)提高包容性。
本文引用地址:http://dyxdggzs.com/article/202502/466971.htm目前挑戰
注:機器通過(guò)學(xué)習大型數據集來(lái)連接圖像和文本,數據越多,模型識別模式和提高準確性的能力就越強。視覺(jué)語(yǔ)言模型 (VLMs) 依賴(lài)這些數據集執行圖像字幕和視覺(jué)問(wèn)答等任務(wù)。
視覺(jué)語(yǔ)言模型目前依賴(lài)于 Conceptual Captions 和 LAION 等大型數據集,包含數百萬(wàn)到數十億的圖像-文本對。這些數據集支持零樣本分類(lèi)和圖像字幕生成,但其發(fā)展已放緩至約 100 億對。
這種限制降低了進(jìn)一步提高模型精度、包容性和多語(yǔ)言理解的前景,現有方法基于網(wǎng)絡(luò )爬取的數據,存在樣本質(zhì)量低、語(yǔ)言偏差和多元文化代表性不足等問(wèn)題。
WebLI-100B 千億級數據集
Google DeepMind 的研究人員為了緩解視覺(jué)語(yǔ)言模型在文化多樣性和多語(yǔ)言性方面的局限性,提出了 WebLI-100B 數據集,該數據集包含 1000 億個(gè)圖像-文本對,比之前的數據集大十倍。
該數據集捕獲了罕見(jiàn)的文化概念,并提高了模型在低資源語(yǔ)言和多樣化表示等較少探索領(lǐng)域的性能。與先前的數據集不同,WebLI-100B 不是依賴(lài)嚴格的過(guò)濾(通常會(huì )刪除重要的文化細節),而是專(zhuān)注于擴展數據。
該框架涉及在 WebLI-100B 數據集的不同子集(1B、10B 和 100B)上預訓練模型,以分析數據縮放的影響。
在完整數據集上訓練的模型在文化和多語(yǔ)言任務(wù)中的表現優(yōu)于在較小數據集上訓練的模型,即使使用相同的計算資源。該數據集沒(méi)有進(jìn)行激進(jìn)的過(guò)濾,而是保留了語(yǔ)言和文化元素的廣泛代表性,使其更具包容性。
研究結果表明,將數據集大小從 10B 增加到 100B 對以西方為中心的基準測試的影響很小,但在文化多樣性任務(wù)和低資源語(yǔ)言檢索方面帶來(lái)了改進(jìn)。
評論