<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 斯坦福團隊是如何構建更好用的聊天 AI 呢?

斯坦福團隊是如何構建更好用的聊天 AI 呢?

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2022-03-12 來(lái)源:工程師 發(fā)布文章

作者:Standford AI

譯者:Yang

來(lái)源:數據實(shí)戰派

2019 年,憑借著(zhù) Chirpy Cardinal 機器人,斯坦福首次在 Alexa Prize Socialbot Grand Challenge 3 中贏(yíng)得了第二名。本文將進(jìn)一步揭示 Chirpy Cardinal 開(kāi)發(fā)細節,來(lái)還原斯坦福團隊如何與人機交互過(guò)程中常見(jiàn)的疑難雜癥過(guò)招,并探索相應的解決方案。Alexa Prize 是一個(gè)獨特的研究環(huán)境,它允許研究人員按照自己的意愿來(lái)研究人機交互。在比賽期間,美國的 Alexa 用戶(hù)可以通過(guò)“讓我們來(lái)聊天吧”這句指令,來(lái)用英語(yǔ)與一個(gè)匿名且隨機的參賽機器人對話(huà)。在這個(gè)過(guò)程中,他們可以隨時(shí)結束對話(huà)。由于 Alexa Prize 社交機器人致力于創(chuàng )造盡可能自然的體驗,他們需要能應對長(cháng)時(shí)間的、開(kāi)放領(lǐng)域的社交,盡可能地囊括更多的話(huà)題。我們發(fā)現 Chirpy 用戶(hù)對許多不同的主題感興趣,從時(shí)事(比如新冠病毒)到熱點(diǎn)(比如《冰雪奇緣 2》)再到個(gè)人興趣(比如用戶(hù)個(gè)人的寵物)。Chirpy 通過(guò)使用結合了神經(jīng)生成和腳本對話(huà)的模塊化設計來(lái)實(shí)現對這些話(huà)題的覆蓋,正如我們此前的文章所述。我們使用此設置研究了有關(guān)社交機器人對話(huà)的三個(gè)問(wèn)題:1、用戶(hù)們在吐槽些啥,我們如何從吐槽中學(xué)習來(lái)改進(jìn)神經(jīng)生成的對話(huà)?2、哪些策略在處理和阻止冒犯性的用戶(hù)行為方面有效或者無(wú)效?3、我們該如何調整優(yōu)先權,來(lái)讓用戶(hù)和機器人都能有意義地掌控對話(huà)?這篇文章將分享一些關(guān)鍵發(fā)現,為聊天機器人的研發(fā)人員提供一些實(shí)用的見(jiàn)解。一、了解和預測用戶(hù)的不滿(mǎn)



圖片
神經(jīng)生成對話(huà)模型(如 DialoGPT、Meena 和 BlenderBot)通過(guò)使用大型預訓練神經(jīng)語(yǔ)言模型,在給定歷史對話(huà)的情況下生成響應。這些模型在工作人員精心設置的情況下(一般是具備某些特定主題或者長(cháng)度有限制的書(shū)面對話(huà))表現良好。然而,像 Alexa Prize 這樣的現實(shí)生活中的場(chǎng)景,往往無(wú)章可循。用戶(hù)們的期待值和個(gè)性差異都非常大,并且對話(huà)過(guò)程中往往充滿(mǎn)了噪音,在這樣的環(huán)境中,用戶(hù)們仍然會(huì )要求對話(huà)機器人快速做出回應。通過(guò) Chirpy Cardinal,我們有了個(gè)獨特的機會(huì )來(lái)研究現代神經(jīng)生成對話(huà)模型如何在這種環(huán)境中保持穩定。Chirpy Cardinal 使用在 EmpatheticDialogues 上微調的 GPT2-medium 模型,與用戶(hù)就他們的日常生活和情緒進(jìn)行簡(jiǎn)短的討論。尤其是在疫情期間,我們發(fā)現 Chirpy 向用戶(hù)們詢(xún)問(wèn)這些話(huà)題十分重要。盡管有更大、更強的預訓練模型可以用,但是由于預算和響應速度的限制,我們還是使用了 GPT2-medium。圖片雖然 GPT2-medium 模型能用幾句話(huà)來(lái)圍繞這些簡(jiǎn)單的話(huà)題聊天,但是一旦對話(huà)時(shí)間變長(cháng),聊天就會(huì )出現偏差,機器人遲早會(huì )作出不合理的響應。無(wú)論是用戶(hù)還是模型都很難再讓對話(huà)恢復正常。為了理解這些對話(huà)是如何脫軌的,我們定義了 7 種神經(jīng)生成模型所犯的錯誤的類(lèi)型——重復、多余問(wèn)題、不清晰的話(huà)語(yǔ)、錯覺(jué)、忽略、邏輯錯誤、侮辱性話(huà)語(yǔ)。在對用戶(hù)對話(huà)樣本進(jìn)行標注后,我們發(fā)現機器人的錯誤很常見(jiàn),超過(guò)了一半(53%)的神經(jīng)生成語(yǔ)句包含某種錯誤。我們還發(fā)現,由于極具挑戰的嘈雜環(huán)境(可能涉及背景噪聲、串擾和 ASR 錯誤),幾乎四分之一 (22%) 的用戶(hù)話(huà)語(yǔ)無(wú)法被理解,即使是人工注釋者也是如此。這解釋了一些更基本的機器人錯誤,例如忽略、錯覺(jué)、不清楚和重復的話(huà)語(yǔ)。在其他機器人犯的錯誤中,多余問(wèn)題和邏輯錯誤尤為常見(jiàn),這表明更好地推理和使用歷史對話(huà)是神經(jīng)生成模型開(kāi)發(fā)的優(yōu)先事項。我們還定位了用戶(hù)表達不滿(mǎn)的 9 種方式,例如要求澄清、批評機器人和結束對話(huà)。盡管機器人的錯誤和用戶(hù)不滿(mǎn)之間存在關(guān)系,但這種相關(guān)性千絲萬(wàn)縷,紛繁復雜。即使出現機器人錯誤,許多用戶(hù)也不會(huì )表達不滿(mǎn),而是試圖繼續對話(huà)。在邏輯錯誤之后尤其如此,其中機器人表現出缺乏現實(shí)世界的知識或常識——一些好心的用戶(hù)甚至將此作為教育機器人的機會(huì )。相反,一些用戶(hù)表達了與任何明顯的機器人錯誤無(wú)關(guān)的不滿(mǎn)——例如,用戶(hù)對機器人所問(wèn)的哪些問(wèn)題是合時(shí)宜的有很大不同的期望。在更好地理解了用戶(hù)表達不滿(mǎn)的方式和原因后,我們不禁疑問(wèn):我們能否學(xué)會(huì )預測不滿(mǎn),從而在用戶(hù)不滿(mǎn)之前加以預防?圖片利用在比賽期間收集到的用戶(hù)對話(huà),我們訓練了一個(gè)模型來(lái)預測某句機器人說(shuō)的話(huà)會(huì )導致用戶(hù)不滿(mǎn)的概率??紤]到機器人錯誤和用戶(hù)不滿(mǎn)之間的復雜相關(guān)性,這非常具有挑戰性。盡管有這種復雜性,我們的預測模型還是能夠找到用戶(hù)不滿(mǎn)的信號。一旦經(jīng)過(guò)訓練,我們的不滿(mǎn)意預測器就可以在對話(huà)中用于在多個(gè)備選話(huà)語(yǔ)之間進(jìn)行選擇。通過(guò)人工評估,我們發(fā)現預測器選擇的機器人響應——即那些被判斷為最不可能引起用戶(hù)不滿(mǎn)的響應——總體上比隨機選擇的響應質(zhì)量更好。盡管我們尚未將此反饋循環(huán)整合到 Chirpy Cardinal 中,但我們的方法展示了一種可行的方法來(lái)實(shí)現半監督在線(xiàn)學(xué)習方法,以不斷改進(jìn)神經(jīng)生成對話(huà)系統。二、應對攻擊性用戶(hù)



圖片
語(yǔ)音助手正變得越來(lái)越流行,并且在此過(guò)程中,它們被越來(lái)越多的用戶(hù)群的濫用。我們估計,超過(guò) 10% 的用戶(hù)與我們的機器人 Chirpy Cardinal 的對話(huà)包含褻瀆和公然冒犯的語(yǔ)言。雖然有大量此前的工作試圖解決這個(gè)問(wèn)題,但大多數先前的方法都使用基于在實(shí)驗室環(huán)境中進(jìn)行的調查的定性指標。在這項工作中,我們對開(kāi)放世界中攻擊性用戶(hù)的響應策略進(jìn)行了大規模的定量評估。在實(shí)驗中,我們發(fā)現禮貌地拒絕用戶(hù)的冒犯,同時(shí)將用戶(hù)重定向到另一個(gè)主題是遏制冒犯的最佳策略。根據先前的工作,我們測試了以下 4 種假設:1、重定向——受到 Brahnam 的啟發(fā),我們假設在響應冒犯性用戶(hù)話(huà)語(yǔ)時(shí),使用明了的重定向是一種有效的策略。例如,“我寧愿不談?wù)撨@個(gè)。那么,你最喜歡的音樂(lè )家是誰(shuí)?”2、姓名——受到 Suler、Chen 和 Williams 的啟發(fā),我們假設在機器人的響應中包含用戶(hù)的姓名是一種有效的策略。例如,“我不想談這個(gè),Peter?!?/span>3、疑問(wèn)——受 Shapior 等人的啟發(fā),我們假設禮貌地詢(xún)問(wèn)用戶(hù)他們發(fā)表冒犯性言論的原因,引導他們反思自己的行為,從而減少之后可能的冒犯。例如,“你為什么這么說(shuō)?”4、關(guān)懷與問(wèn)詢(xún)——受 Chin 等人的啟發(fā),我們假設帶有感情的回應比一般的回避反應更有效,而反擊反應沒(méi)有作用。例如,一個(gè)善解人意的回應是“如果我可以談?wù)撍?,我?huì )談?wù)撍?,但我真的不能。很抱歉讓您失望了”,而反擊式回應則是“這是一個(gè)非常具有暗示性的說(shuō)法。我認為我們不應該談?wù)撨@個(gè)?!?/span>我們構建了囊括上述多個(gè)因素的響應。例如,回避 + 姓名 + 重定向會(huì )產(chǎn)生這樣的表達“我寧愿不談?wù)撃莻€(gè)(回避的內容),Peter(姓名)。那么,你最喜歡的音樂(lè )家是誰(shuí)?(重定向)”為了衡量響應策略的有效性,我們提出了 3 個(gè)指標:1、再具攻擊性——測量在初始機器人響應后包含另一個(gè)攻擊性語(yǔ)句的對話(huà)數量。2、結束——假設未來(lái)沒(méi)有違規行為,以機器人響應后的對話(huà)長(cháng)度來(lái)衡量。3、下一個(gè)——測量為在用戶(hù)再次冒犯之前經(jīng)過(guò)的對話(huà)數。我們認為,這些指標比 Cohn 等人所做的用戶(hù)評級更直接地衡量了響應策略的有效性,它衡量了對話(huà)的整體質(zhì)量。圖片上圖顯示了對再具攻擊性采取不同策略所帶來(lái)的不同。正如我們所見(jiàn),帶有(重定向)的策略比不帶重定向的策略表現得更好,將再具攻擊性的概率降低了 53%。我們的成對假設檢驗進(jìn)一步表明,在重定向的基礎上帶上用戶(hù)的名字,進(jìn)一步降低了大約 6% 的再具攻擊性的概率,而詢(xún)問(wèn)用戶(hù)為什么他們發(fā)表冒犯性言論卻讓再具攻擊性率增加了 3%,這表明詢(xún)問(wèn)的效果不盡如人意。感性的回應同樣能使再具攻擊性率降低 3%,而反擊式回應則沒(méi)有顯著(zhù)的影響。圖片左圖顯示了直到下一次攻擊性語(yǔ)句出現(Next)的平均對話(huà)數差異,右圖顯示了直到對話(huà)結束(End)的平均對話(huà)數差異。我們再次看到使用重定向的策略能夠顯著(zhù)延長(cháng)非冒犯性對話(huà)。這進(jìn)一步表明重定向是抑制用戶(hù)冒犯的非常有效的方法。這樣做的結果顯示,機器人應該始終通過(guò)重定向,并以善解人意的方式回應用戶(hù)的冒犯,并盡可能地使用用戶(hù)的名字。盡管被動(dòng)回避和重定向策略具備有效性,我們想提醒研究人員采用類(lèi)似策略的潛在社會(huì )風(fēng)險。由于大多數基于語(yǔ)音的代理都有默認的女性聲音,因此這些策略可能會(huì )進(jìn)一步加深性別刻板印象,并對女性在現實(shí)世界中對言語(yǔ)的冒犯行為設定不合理的期望。因此,在部署這些策略時(shí)必須謹慎。三、提高用戶(hù)的主動(dòng)性



圖片
對話(huà)要么由用戶(hù)控制(例如,像 Apple 的 Siri 這樣的機器人,它被動(dòng)地等待用戶(hù)命令),要么由機器人(例如,CVS 的客戶(hù)服務(wù)機器人,它反復提示用戶(hù)輸入特定信息)。這種屬性——用戶(hù)在給定時(shí)刻擁有控制權——被稱(chēng)為主動(dòng)性。讓一個(gè)人參加雞尾酒會(huì )并參與每一個(gè)主題,而不是給你機會(huì )分享自己的興趣,這會(huì )很無(wú)趣。同樣的,和拒絕談?wù)撟约?,而只是強迫你?lái)維持對話(huà)的人交流也很乏味。最理想的情況是,每個(gè)人輪流回應提示,分享關(guān)于自己的事,并且介紹新的話(huà)題加入聊天。我們將這種對話(huà)模式稱(chēng)為混合主動(dòng)性,并假設它是一種令人愉快的人與人之間的社交對話(huà),這也是一種更具吸引力和更理想的人機對話(huà)形式。我們設計了 Chirpy Cardinal 機器人,通過(guò)在每一個(gè)轉折點(diǎn)提出問(wèn)題來(lái)保持對話(huà)向前發(fā)展。盡管這有助于防止對話(huà)停滯,但也很難使用戶(hù)采取主動(dòng)。在我們的數據中,我們觀(guān)察到用戶(hù)對此進(jìn)行了抱怨,例如機器人提出了太多問(wèn)題,或者這不是用戶(hù)想要談?wù)摰膬热荨?/span>由于研究主動(dòng)性的目的是讓人類(lèi)與機器人的對話(huà),更像人類(lèi)之間的對話(huà),因此我們希望研究人類(lèi)對話(huà)來(lái)獲得靈感。基于這項研究,我們形成了三個(gè)關(guān)于如何提高用戶(hù)主動(dòng)性的假設。下圖展示了測試的話(huà)語(yǔ)類(lèi)型以及具有代表性的用戶(hù)語(yǔ)句。根據 Alexa Prize 競賽規則,這些不是機器人收到的實(shí)際用戶(hù)語(yǔ)句。圖片1、用陳述代替疑問(wèn)在人類(lèi)對話(huà)研究中,往往提問(wèn)者更具有主動(dòng)性,因為他們給出了回答者的方向。相比之下,開(kāi)放式的陳述句讓對方更有機會(huì )采取主動(dòng)。這是我們的第一個(gè)策略的基礎:使用陳述而不是疑問(wèn)。圖片2、分享個(gè)人信息人與人之間的對話(huà)和人類(lèi)與機器人對話(huà)的研究發(fā)現,自我信息的披露具有互惠效應。如果一個(gè)參與者分享了他們自己,那么另一個(gè)人更有可能做同樣的事情。我們假設,如果 Chirpy 提供個(gè)人陳述而不是其他的陳述,那么用戶(hù)會(huì )采取主動(dòng)和回報。圖片左圖是一個(gè)利用回饋信息的對話(huà)示例,右圖沒(méi)有。在這種情況下,回饋允許用戶(hù)將對話(huà)導向他們想要的(獲得建議),而不是強迫他們談?wù)撍麄儾桓信d趣的事情(愛(ài)好)。3、引入反饋反饋信息,例如“hmm”、“I see”和“mm-hmm”,都是簡(jiǎn)短的話(huà)語(yǔ),用作從聽(tīng)眾到演講者的信號,表明演講者應該繼續主動(dòng)。我們的最終假設是它們可以用于人機對話(huà)以達到相同的效果,即如果我們的機器人反向引導,那么用戶(hù)將引導對話(huà)。為了測試這些策略的效果,我們更改了機器人的不同組件。我們進(jìn)行了小型實(shí)驗,只改變了一次談話(huà),以測試問(wèn)題與陳述以及個(gè)人陳述與一般陳述的效果差異。為了測試在更多對話(huà)上用問(wèn)題替換陳述的效果,我們更改了使用神經(jīng)生成對話(huà)的機器人組件,因為這些組件更靈活地更改用戶(hù)輸入。最后我們在機器人的全神經(jīng)模塊中嘗試了用上反饋信息。使用我們手動(dòng)注釋驗證的一組自適應指標,發(fā)現了以下結果,這些結果為未來(lái)的對話(huà)設計提供了方向:1、單獨使用陳述優(yōu)于提問(wèn)或陳述和提問(wèn)的結合;2、給出個(gè)人意見(jiàn)陳述(例如“我喜歡馬男波杰克”)比個(gè)人經(jīng)驗陳述(例如“我昨天看了馬男波杰克”)和一般性陳述(例如“馬男波杰克由 Raphael Bob-Waksberg 和 Lisa Hanawalt 創(chuàng )始”)更有效;3、隨著(zhù)提問(wèn)數量的減少,用戶(hù)主動(dòng)性增加;4、當我們在 33% 的時(shí)間中(相對于 0%、66% 或 100%)利用反饋信息時(shí),用戶(hù)主動(dòng)性最高。由于這些實(shí)驗是在有限的環(huán)境中進(jìn)行的,我們并不期望它們會(huì )完美地轉移到所有社交機器人上;然而,我們相信,這些簡(jiǎn)單而有效的策略,是構建更自然的對話(huà)式人工智能的一個(gè)有希望的方向。四、總結:帶著(zhù)同理心傾聽(tīng)



我們的每個(gè)項目都是從用戶(hù)的不滿(mǎn)意開(kāi)始的,他們用自己的方式告訴我們,機器人可以做得更好。通過(guò)對這些投訴進(jìn)行系統分析,我們更準確地了解了用戶(hù)對我們神經(jīng)生成的反應的具體困擾。通過(guò)這些反饋,我們訓練了一個(gè)模型,該模型能夠成功預測生成的響應何時(shí)可能導致對話(huà)誤入歧途。有時(shí),是用戶(hù)會(huì )說(shuō)出冒犯性的話(huà)。我們研究了這些案例,并確保包含用戶(hù)姓名的,帶著(zhù)同理心的重定向,能最有效地保持對話(huà)正常進(jìn)行。最后,我們嘗試了單純的少說(shuō)話(huà),并為用戶(hù)創(chuàng )造更多引導對話(huà)的機會(huì )。結果發(fā)現,當有這個(gè)機會(huì )時(shí),許多人都會(huì )抓住它,從而能進(jìn)行更長(cháng)、更豐富的對話(huà)。在我們所有的工作中,人類(lèi)對話(huà)的直觀(guān)原則也適用于社交機器人:做一個(gè)好的傾聽(tīng)者,以同理心回應,當你得到反饋和學(xué)習的機會(huì )時(shí),接受它。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>