<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 新聞縱覽 > 必示科技聯(lián)合多家單位發(fā)布 OpsEval:運維大語(yǔ)言模型評測榜單

必示科技聯(lián)合多家單位發(fā)布 OpsEval:運維大語(yǔ)言模型評測榜單

作者: 時(shí)間:2023-10-27 來(lái)源: 收藏

本文引用地址:http://dyxdggzs.com/article/202310/452153.htm

01 引言

大規模語(yǔ)言模型(LLMs)在NLP相關(guān)任務(wù)如翻譯、摘要和生成方面展現出了卓越的能力。由于大模型的記憶、生成和推理等高級能力,它在智能運維(AIOps)領(lǐng)域也具有巨大的應用潛力。然而,當前LLMs在A(yíng)IOps特定任務(wù)的性能尚不明確,需要一個(gè)全面的基準來(lái)指導針對AIOps領(lǐng)域的LLMs的優(yōu)化。

為了解決這些問(wèn)題,清華大學(xué)、中國科學(xué)院計算機網(wǎng)絡(luò )信息中心、南開(kāi)大學(xué)、必示科技、中興通訊、中亦圖靈等多家單位聯(lián)合發(fā)布了OpsEval:面向大規模語(yǔ)言模型的多層次智能運維能力評價(jià)基準。此榜單發(fā)布于中國科技網(wǎng)(CSTNET)上,中國科技網(wǎng)是中國科學(xué)院領(lǐng)導下的學(xué)術(shù)性、非盈利的科研計算機網(wǎng)絡(luò ),是中國第一個(gè)全功能正式接入國際互聯(lián)網(wǎng)的網(wǎng)絡(luò ),主要面向全國科技界、政府和高新技術(shù)企業(yè)提供網(wǎng)絡(luò )服務(wù),覆蓋30余個(gè)省、市、自治區、直轄市,擁有網(wǎng)絡(luò )用戶(hù)100余萬(wàn)。中國科技網(wǎng)由中國科學(xué)院計算機網(wǎng)絡(luò )信息中心建設維護。中心成立于1995年3月,是中國互聯(lián)網(wǎng)誕生地。

OpsEval首次評估了LLMs在三個(gè)關(guān)鍵場(chǎng)景(有線(xiàn)網(wǎng)絡(luò )運營(yíng)、5G通信運營(yíng)和數據庫運營(yíng))的各種任務(wù)難度級別(知識召回、推理、應用)的熟練程度?;鶞蕼y試包括7200個(gè)問(wèn)題,既有選擇題,也有問(wèn)答題,提供英文和中文。我們非常歡迎其他垂直領(lǐng)域的單位提供更多評測題目,我們會(huì )統一評估,并定期更新到OpsEval網(wǎng)站上。

我們評估了十余種主流大模型,我們的發(fā)現揭示了傳統的BLEU指標不適合用于專(zhuān)業(yè)領(lǐng)域的知識型問(wèn)答評估,而GPT-4得分可以作為人類(lèi)評估指標的最佳替代品。最后,我們探討了不同模型量化方法對總體性能的影響。

02 相關(guān)工作

隨著(zhù)傳統的自然語(yǔ)言處理(NLP)評價(jià)指標越來(lái)越無(wú)法滿(mǎn)足LLMs的評估需求,針對LLMs的評價(jià)指標越來(lái)越受到重視。它們可以分為兩類(lèi):通用能力指標和特定領(lǐng)域指標。

通用能力指標,如HELM、BIG-bench、C-Eval、AGIEval等等,用于評估LLMs在各類(lèi)任務(wù)上的通用能力,例如是否包含常識、通用知識、推理能力等等,不會(huì )局限在某一特定領(lǐng)域上。而特定領(lǐng)域指標,包括金融領(lǐng)域的FinEval、醫療領(lǐng)域的CMB、HuoTuo-26M、MultiMedQA等等,被用于評價(jià)LLMs是否處理特定垂直領(lǐng)域的問(wèn)題。

最近提出的NetOps,被用于評估LLMs在網(wǎng)絡(luò )領(lǐng)域下的能力,包含中英文選擇題、少量的填空和問(wèn)答題。與之相比,我們的工作包括了傳統網(wǎng)絡(luò )運維、5G網(wǎng)絡(luò )通信、數據庫運維等多個(gè)方面,在A(yíng)IOps領(lǐng)域涵蓋更加廣泛和深入的評價(jià)方式,在任務(wù)話(huà)題和任務(wù)難度上進(jìn)行了更加細致的劃分,并且對常見(jiàn)LLMs在各類(lèi)任務(wù)上的表現進(jìn)行了詳細的分析。

03 OpsEval 評估基準

在對AIOps領(lǐng)域的大型語(yǔ)言模型進(jìn)行評估時(shí),我們將問(wèn)題分為客觀(guān)和主觀(guān)兩類(lèi)??陀^(guān)問(wèn)題通常為多項選擇題,提供明確答案,但可能導致模型過(guò)度依賴(lài)模式識別而非真正理解。主觀(guān)題無(wú)預設選項,更能考察模型的理解力和知識庫。我們通過(guò)結合這兩類(lèi)問(wèn)題,旨在全面、平衡地評估模型的認知能力和理解力。

3.1 客觀(guān)題

數據來(lái)源:客觀(guān)問(wèn)題主要來(lái)自于全球公認的AIOps領(lǐng)域的國際認證考試,我們從各種書(shū)籍、在線(xiàn)資源和合作單位中收集問(wèn)題。這些問(wèn)題主要以選擇題的形式出現,包括單選和多選兩種形式。每個(gè)問(wèn)題都配有問(wèn)題提示、可能的答案選擇以及相關(guān)的解釋或分析。我們主要關(guān)注的領(lǐng)域包括有線(xiàn)網(wǎng)絡(luò )運營(yíng)、5G通信運營(yíng)和數據庫運營(yíng)。我們還將繼續在未來(lái)完善和擴大評估領(lǐng)域。

數據處理:我們的原始數據集的處理包括五個(gè)階段:初步篩選、去重、內容過(guò)濾、格式標準化和手動(dòng)審查。這個(gè)細致的過(guò)程最終得到了一個(gè)包含大約7000個(gè)客觀(guān)題的精煉數據集。

任務(wù)分類(lèi):在復雜的運維領(lǐng)域,認識到任務(wù)和挑戰的多維性是至關(guān)重要的。為了全面評估AIOps領(lǐng)域的大型語(yǔ)言模型,我們設計了一個(gè)分類(lèi),涵蓋了專(zhuān)業(yè)人員在實(shí)際環(huán)境中面臨的各種場(chǎng)景。我們的八個(gè)不同的運維場(chǎng)景的制定受到了行業(yè)相關(guān)性、任務(wù)頻率和每個(gè)領(lǐng)域在A(yíng)IOps中的重要性的影響。這些類(lèi)別包括:

?通用領(lǐng)域知識

?故障分析和診斷

?網(wǎng)絡(luò )配置

?軟件部署

?性能優(yōu)化

?監控告警

?自動(dòng)化腳本

?混合型任務(wù)

3.2 主觀(guān)題

數據收集:OpsEval數據集中的主觀(guān)題來(lái)源于精心策劃的多種資源,以確保其全面性和相關(guān)性:

?從客觀(guān)問(wèn)題生成:我們的一部分主觀(guān)題是從原始數據集中精心挑選的客觀(guān)問(wèn)題中派生出來(lái)的。這些問(wèn)題在被確定具有潛在的深度和廣度后,被轉化為主觀(guān)形式。

?從書(shū)籍中提?。簽榱嗽鰪娢覀償祿亩鄻有院蜕疃?,我們還從涵蓋AIOps領(lǐng)域的權威書(shū)籍中獲取了主觀(guān)題。這確保了我們的數據集不僅廣泛,而且符合行業(yè)標準和當前的最佳實(shí)踐。

數據處理:

1.問(wèn)題總結:被選中轉化為主觀(guān)題的客觀(guān)問(wèn)題經(jīng)過(guò)了一個(gè)總結過(guò)程。這涉及到提煉每個(gè)問(wèn)題的主要內容,并以沒(méi)有預定義選項的開(kāi)放題形式呈現。

2.引入參考資料:對于在GPT-4的幫助下生成的問(wèn)題,我們在提示中提供了參考文本,以指導生成過(guò)程并確保準確性。

3.數據結構化:每個(gè)主觀(guān)題都被精心結構化,包括原始問(wèn)題、答案的關(guān)鍵點(diǎn)、詳細答案、領(lǐng)域和相關(guān)任務(wù)。這種結構化的方法便于評估和分析。

3.3 評估指標

客觀(guān)題:使用準確性作為指標。由于LLMs可能輸出除選項之外的更多內容,因此LLMs的答案是通過(guò)基于正則表達式的選項提取器從其原始回復中提取的。

主觀(guān)題:用兩種類(lèi)型的指標,一種基于詞重疊,另一種基于語(yǔ)義相似性。對于第一種類(lèi)型,我們使用Rouge和Bleu,這在NLP任務(wù)中被廣泛使用,尤其是在翻譯任務(wù)中。對于第二種類(lèi)型,我們使用GPT-4和人類(lèi)來(lái)獲取LLMs輸出的分數,這在OpsEval中分別被稱(chēng)為GPT4-Score和Expert Evaluation。

?GPT4-Score是由GPT4生成的分數,使用精心設計的提示。尤其是在LLMs的參數變大后,越來(lái)越多地使用LLMs進(jìn)行評分。我們將問(wèn)題的評分提示、真實(shí)關(guān)鍵點(diǎn)、真實(shí)詳細答案和待評分的LLM答案組合起來(lái)。分數在1到10之間,越高越好。

?專(zhuān)家評估(Expert Evaluation)是為OpsEval專(zhuān)門(mén)設計的指標,根據三個(gè)與網(wǎng)絡(luò )操作需求高度相關(guān)的標準對LLMs的輸出進(jìn)行手動(dòng)評分??紤]的三個(gè)標準如下:

1.流暢性(Fluency):評估模型輸出的語(yǔ)言流暢性,符合主觀(guān)問(wèn)題的回答要求,以及段落重復或無(wú)關(guān)文本的存在與否。

2.準確性(Accuracy):評估模型輸出的精確性和正確性,包括是否充分覆蓋了真實(shí)答案的關(guān)鍵點(diǎn)。

3.證據量(Evidence):檢查模型的輸出是否包含足夠的論證和證據支持,以確保答案的可信度和可靠性。

04 OpsEval 實(shí)驗設計

4.1 考察模型

我們選取了比較流行的能夠處理中英文輸入的不同參數大小、不同機構發(fā)布的模型,并將它們在OpsEval上進(jìn)行評估。所評估的模型及具體細節見(jiàn)下表。

此外,為了了解不同量化參數對模型性能的影響,我們評估了LLaMA-2-70B的兩個(gè)量化版本。具體而言,我們使用LLaMA-2-70B的帶有3位和4位量化參數的GPTQ模型。

4.2 實(shí)驗設置

4.2.1 客觀(guān)題

為了全面了解不同語(yǔ)言模型在OpsEval上的表現,我們使用盡可能多的評估方式來(lái)進(jìn)行評估。在評測中,我們分別使用zero-shot方式和few-shot方式(我們的實(shí)現中為3-shot)進(jìn)行評估。對于zero-shot方式,我們希望從普通用戶(hù)的角度評估語(yǔ)言模型的能力,因為用戶(hù)在普通使用中不會(huì )提供任何示例。對于few-shot方式,我們旨在從開(kāi)發(fā)人員的角度評估語(yǔ)言模型的潛力,這通常比zero-shot設置獲得更好的性能。

對于每個(gè)評估方式,我們使用4種設置來(lái)評估語(yǔ)言模型,即原始問(wèn)答(Naive)、自我一致性(SC)、思維鏈(CoT),結合思維鏈的自我一致性(CoT+SC)。由于我們有英文和中文問(wèn)題,我們分別為兩種語(yǔ)言設計對應的原始問(wèn)答提示與思維鏈提示。

?原始問(wèn)答(Naive):希望語(yǔ)言模型在沒(méi)有任何其他解釋的情況下生成答案。由于我們有每個(gè)問(wèn)題的場(chǎng)景,因此我們將問(wèn)題的場(chǎng)景集成到提示中,如下圖所示。

?自我一致性(SC):將相同的問(wèn)題多次詢(xún)問(wèn)語(yǔ)言模型,提取模型生成答案中出現次數最高的答案。在實(shí)現中,我們將SC的查詢(xún)次數設置為 5 。

?思維鏈(CoT):通過(guò)讓模型生成中間推理步驟使語(yǔ)言模型獲得復雜的推理能力。在CoT設置的zero-shot評估中,我們進(jìn)行兩步問(wèn)答。第一步,在問(wèn)題后添加“讓我們一步一步地思考?!?,語(yǔ)言模型會(huì )輸出其推理思路。第二步,我們將問(wèn)題的提示和生成的推理思路組合起來(lái),輸入語(yǔ)言模型,并獲得最終答案。在CoT設置的few-shot評估中,我們對問(wèn)題的每個(gè)選項進(jìn)行推理分析,并制作三個(gè)具有CoT推理過(guò)程答案的Q-A示例,將這些示例與問(wèn)題一起輸入給語(yǔ)言模型。CoT的提示構造示例如下圖所示。

?結合思維鏈的自我一致性(CoT+SC):將CoT和SC結合在一起,以提高CoT的表現。與 SC一樣,在實(shí)現中,我們將SC的查詢(xún)次數設置為 5 。

4.2.1 主觀(guān)題

我們將每個(gè)問(wèn)題的場(chǎng)景和任務(wù)以及問(wèn)題本身結合起來(lái)作為語(yǔ)言模型的輸入。在主觀(guān)題中,我們希望模擬普通用戶(hù)對語(yǔ)言模型的日常使用,將問(wèn)題輸入給語(yǔ)言模型,然后生成答案。因此,我們只使用Naive設置中對語(yǔ)言模型進(jìn)行zero-shot評估。

05 OpsEval 評估效果

5.1 總體表現

所有模型在英文網(wǎng)絡(luò )操作測試集的八種設置結果顯示在下表中(更多評測結果請參閱論文原文和網(wǎng)站)。我們統計平均準確率,并從總體性能中得出了幾個(gè)發(fā)現。

首先,GPT-4始終優(yōu)于所有其他模型,超越了所有其他模型的最佳結果。

在網(wǎng)絡(luò )操作問(wèn)題集中,當使用CoT+SC提示方法時(shí),LLaMA-2-13b-chat和Baichuan-13b-chat在英文和中文測試數據集中接近ChatGPT的性能。

在5G通信問(wèn)題集中,LlaMA-2-13B和Qwen-7B-Chat在英文和中文測試數據集中超過(guò)了ChatGPT的性能。

在Oracle數據庫問(wèn)題集中,LlaMA-2-13B和Qwen-7B-Chat仍然領(lǐng)先于GPT-4和ChatGPT以外的模型。

較小的模型,如LLaMA-2-7b-chat和Internlm-chat-7b,在客觀(guān)的問(wèn)答任務(wù)中表現出有競爭力的性能,接近具有13B參數的模型的能力,這歸功于它們的微調過(guò)程和訓練數據的質(zhì)量。

5.2 不同設置間效果對比

從測試結果中,有幾點(diǎn)有趣的觀(guān)察:

1.對于大多數模型,從Naive到SC、CoT、CoT+SC,評估性能穩步提高,其中CoT帶來(lái)的提高最為顯著(zhù)。

2.SC提示只能帶來(lái)相對較小的改進(jìn),因為模型的回應在重復中傾向于保持一致,符合運營(yíng)場(chǎng)景中需要可靠性和一致性的期望結果。

3.在某些情況下,更高級的提示方法(如CoT)令人驚訝地導致了更差的結果。我們分析了這種現象背后的可能原因:

a.一些模型可能在需要逐步思考時(shí)對CoT提示提供的指導反應不佳,導致次優(yōu)的輸出。下圖是CoT失敗的一個(gè)例子:被測試的模型無(wú)法理解逐步思考的概念。

b.few-shot評估可能會(huì )導致一些模型認為任務(wù)涉及生成問(wèn)題而不是回答問(wèn)題,從而導致模型回答效果變差。

5.3 不同場(chǎng)景與任務(wù)效果

為了研究模型在不同運維場(chǎng)景(通用領(lǐng)域知識、監控告警、軟件部署、網(wǎng)絡(luò )配置、故障分析與診斷、自動(dòng)化腳本、性能優(yōu)化、混合型任務(wù))以及不同任務(wù)(知識回憶、分析思考和實(shí)際應用)中的表現,我們根據前文提到的結構化評分分類(lèi),總結了不同參數大小模型組的結果。

通過(guò)按參數大小對模型進(jìn)行分組,我們發(fā)現,盡管13B模型在最佳情況下的準確率比參數少于7B的模型高,但不同的13B模型的性能差異極大,導致其下限甚至低于7B。另一方面,7B模型在組內的性能范圍更穩定。

5.4 不同量化等級效果對比

上圖展示了LLaMA-2-70B在中英文客觀(guān)問(wèn)題上的不同量化參數的準確性。我們使用Naive設置下進(jìn)行了zero-shot和few-shot評估。顯然,在推理過(guò)程中使用量化會(huì )降低LLM的性能。

4位量化模型與原模型相比,準確率比較接近。具體來(lái)說(shuō),在英文客觀(guān)題上,與LLaMA-2-70B相比,4位量化模型在zero-shot評估中的準確性降低了3.50%,在few-shot評估中降低了0.27%。在中文客觀(guān)題上,與LLaMA-2-70B相比,4位量化模型在zero-shot評估中的準確性降低了3.67%,在few-shot評估中降低了5.18%。

另一方面,3位量化模型的性能下降較大。平均來(lái)說(shuō),3位量化模型的準確性相比原始LLaMA-2-70B降低了12.46%,相比4位量化模型降低了9.30%??梢?jiàn),3位量化后,原始模型中的信息丟失太多。

5.5 主觀(guān)題表現

下表展示了50個(gè)主觀(guān)英文問(wèn)題的評估結果,這些問(wèn)題涵蓋了四類(lèi)指標:Rouge、Bleu、GPT4-Score和專(zhuān)家評估,按照GPT4-Score結果排序。

我們觀(guān)察到,基于Rouge和Bleu得分的排名與GPT4-Score和專(zhuān)家評估的排名并不一致。實(shí)際回答性能較差的模型可能會(huì )生成關(guān)鍵詞,從而得到較高的Rouge和Bleu得分。相反,由于與標準答案的措辭差異,回答性能好的模型可能會(huì )得到較低的Rouge/Bleu得分。

關(guān)于GPT4-Score評估,排名與基于人類(lèi)評分的排名非常接近。在專(zhuān)家評估的三個(gè)指標中,GPT4-Score排名與準確性指標最為接近,這表明GPT4在事實(shí)性上最為可靠,因為它有龐大的知識庫。生成內容的格式和長(cháng)度也對GPT4的評分有很大影響,這由GPT4-Score和流暢性之間的高正相關(guān)性所證明。另一方面,關(guān)于證據量指標的排名有更多的錯排,這表明GPT4的評分需要充分考慮論據和證據的作用,特別是在答案模糊的情況下。

06 總結與展望

本文介紹了OpsEval,一個(gè)為大規模語(yǔ)言模型(LLMs)設計的綜合性任務(wù)導向的智能運維領(lǐng)域基準測試。OpsEval的獨特之處在于,它在考慮了不同的能力水平(包括知識召回、推理和應用)的前提下,評估了LLMs在三個(gè)關(guān)鍵場(chǎng)景(有線(xiàn)網(wǎng)絡(luò )運營(yíng)、5G通信運營(yíng)和數據庫運營(yíng))中的熟練程度。這一綜合性基準測試包括7200道選擇題和問(wèn)答題,分別以英文和中文呈現。

通過(guò)量化和定性的結果支持,我們詳細闡釋了各種LLMs技術(shù)(如零樣本學(xué)習、少樣本學(xué)習和思維鏈)對模型性能的影響。值得注意的是,與廣泛使用的Bleu和Rouge相比,GPT4分數顯現出更可靠的度量標準,這表明它有潛力取代大規模定性評估中的自動(dòng)度量標準。

OpsEval框架的靈活性為未來(lái)的探索提供了機會(huì )。這一基準測試的可適應性使其能夠無(wú)縫集成更多細粒度的任務(wù),為繼續研究和優(yōu)化針對智能運維領(lǐng)域的LLMs提供了基礎。

 




關(guān)鍵詞:

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>