<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 15B模型單項能力錘得過(guò)GPT3.5,開(kāi)源SQLCoder已上崗

15B模型單項能力錘得過(guò)GPT3.5,開(kāi)源SQLCoder已上崗

發(fā)布人:機器之心 時(shí)間:2023-08-23 來(lái)源:工程師 發(fā)布文章
Coder 家族再添新成員,并且已經(jīng)開(kāi)源!

你知道的有關(guān)于代碼編輯的大模型工具有哪些呢?

推特用戶(hù) @lvwerra 制作了下面這張圖,為大家梳理代碼大家庭的大部分成員。

圖片


就在他發(fā)布了這張圖后的兩周內,又有三位新成員加入了這個(gè)大家庭,它們分別是 DeciCoder、OctoCoder 以及最新的成員 SQLCoder。


圖片


其中,這個(gè)最新成員 SQLCoder 不僅性能出色,并且已經(jīng)開(kāi)源了!


SQLCoder


作為一個(gè) SOTA 大型語(yǔ)言模型, SQLCoder 將自然語(yǔ)言問(wèn)題轉換為 SQL 查詢(xún)。在開(kāi)發(fā)者的開(kāi)源評估框架 SQLEval 中,SQLCoder 的性能明顯優(yōu)于所有主要的開(kāi)源模型,并且優(yōu)于 OpenAI 的 GPT-3.5。


SQLCoder 是一個(gè) 15B 參數的 LLM,也是 StarCoder 的微調實(shí)現。SQLCoder 在手工制作的 SQL 查詢(xún)上進(jìn)行了微調,難度依次遞增。在針對單個(gè)數據庫模式進(jìn)行微調時(shí),它的性能可與 GPT-4 媲美,甚至更勝一籌。


圖片


  • 項目地址:https://github.com/defog-ai/sqlcoder

  • 演示地址:https://defog.ai/sqlcoder-demo/

  • 模型權重:https://huggingface.co/defog/sqlcoder


在過(guò)去的三個(gè)月里,SQLCoder 已經(jīng)部署在了醫療、金融等企業(yè)中。這些企業(yè)通常擁有敏感數據,他們不希望這些數據從自有服務(wù)器中流出,因此利用自托管模型是他們使用 LLM 的唯一途徑。


方法


創(chuàng )建數據集


作者創(chuàng )建了一個(gè)手工編輯的 prompt - 補全對數據集,重點(diǎn)是文本到 SQL 任務(wù)。該數據集由 10 個(gè)不同的模式創(chuàng )建,問(wèn)題難度各不相同。此外,他們還從 7 個(gè)新模式中創(chuàng )建了一個(gè)包含 175 個(gè)問(wèn)題的評估數據集。


他們確保在訓練數據集和評估數據集中都選擇了有 4-20 張表的復雜模式,這是因為只有 1 或 2 個(gè)表的模式由于關(guān)系有限,往往只能進(jìn)行簡(jiǎn)單直接的查詢(xún)。


問(wèn)題分類(lèi)


數據集創(chuàng )建后,作者將數據集中的每個(gè)問(wèn)題分為易、中、難、特難四類(lèi)。這種分類(lèi)通過(guò)調整 Spider 數據集使用的標準來(lái)完成,以衡量 SQL 難度。最后,他們將數據集分為兩個(gè)不同的子部分,分別是簡(jiǎn)單問(wèn)題和中等問(wèn)題,以及難題和超難題。


微調


作者分以下兩個(gè)階段對模型進(jìn)行了微調。


首先,僅在簡(jiǎn)單和中等難度的問(wèn)題上對 StarCoder 基礎模型進(jìn)行了微調。


其次,在難題和超難題上對得到的模型(代碼為 defog-easy)進(jìn)行微調,從而得到 SQLcoder。


評估


作者在自己創(chuàng )建的自定義數據集上對模型進(jìn)行了評估。評估 SQL 查詢(xún)的正確性非常困難,他們曾考慮使用 GPT-4 作為 評估標準,但遇到了很多問(wèn)題。過(guò)程中他們還意識到,兩個(gè)不同的 SQL 查詢(xún)可能都正確。


對于 「誰(shuí)是最近 10 個(gè)來(lái)自多倫多的用戶(hù) 」這個(gè)問(wèn)題,以下兩種查詢(xún)方式都是正確的。


圖片


鑒于此,作者建立了一個(gè)自定義框架來(lái)評估查詢(xún)的正確性。他們不僅開(kāi)源了模型權重,同樣開(kāi)源了評估框架與評估數據集。


發(fā)布數據集的目的是豐富可用基準,幫助研究人員和工程師更好地了解文本到 SQL 生成模型的性能,特別是該模型對返回結果中的無(wú)害變化(如列重命名、附加列和重新排序)的穩健性。


圖片


更多關(guān)于評估的細節請參見(jiàn)博客內容:https://defog.ai/blog/open-sourcing-sqleval/


性能


在評估框架中,Defog SQLCoder 的表現優(yōu)于除 GPT-4 之外的所有主要模型。特別地,它的性能超過(guò)了 gpt-3.5-turbo  和 text-davinci-003,而這兩個(gè)模型的大小是它的 10 倍以上。


圖片


這些結果針對的是通用 SQL 數據庫,并不反映 SQLCoder 在單個(gè)數據庫模式上的性能。在對單個(gè)數據庫模式進(jìn)行微調時(shí),SQLCoder 的性能與 OpenAI 的 GPT-4 相同或更好,延遲更低(在 A100 80GB 上)。


圖片

將每個(gè)生成的問(wèn)題分為 5 類(lèi),按類(lèi)別顯示了每個(gè)模型正確回答問(wèn)題的百分比。


SQLCoder 的硬件要求


SQLCoder 已在帶權重的 A100 40GB GPU 上進(jìn)行了測試。你還可以在 20GB 或更大內存的消費級 GPU(如 RTX 4090、RTX 3090 以及 20GB 或更大內存的蘋(píng)果 M2 Pro、M2 Max 或 M2 Ultra 芯片)上加載該模型的 8 位和 4 位量化版本。


接下來(lái)的工作


未來(lái)幾周,作者將對 SQLCoder 進(jìn)行以下更新:


  • 利用更多人工收集的數據和更廣泛的問(wèn)題對模型進(jìn)行訓練;

  • 利用獎勵建模和 RLHF 進(jìn)一步調整模型;

  • 從頭開(kāi)始預訓練一個(gè)專(zhuān)門(mén)從事數據分析的模型(SQL + Python)。


如果你對 SQLCoder 感興趣,快點(diǎn)擊演示地址進(jìn)行探索吧!


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>