<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 「強化學(xué)習可解釋性」最新2022綜述

「強化學(xué)習可解釋性」最新2022綜述

發(fā)布人:數據派THU 時(shí)間:2022-02-13 來(lái)源:工程師 發(fā)布文章

來(lái)源:新智元

圖片

強化學(xué)習是一種從試錯過(guò)程中發(fā)現最優(yōu)行為策略的技術(shù),已經(jīng)成為解決環(huán)境交互問(wèn)題的通用方法。


然而,作為一類(lèi)機器學(xué)習算法,強化學(xué)習也面臨著(zhù)機器學(xué)習領(lǐng)域的公共難題,即難以被人理解。缺乏可解釋性限制了強化學(xué)習在安全敏感領(lǐng)域中的應用,如醫療、駕駛等,并導致強化學(xué)習在環(huán)境仿真、任務(wù)泛化等問(wèn)題中缺乏普遍適用的解決方案。


為了克服強化學(xué)習的這一弱點(diǎn),涌現了大量強化學(xué)習可解釋性(Explainable Reinforcement Learning,XRL)的研究。


然而,學(xué)術(shù)界對XRL尚缺乏一致認識。因此,本文探索XRL的基礎性問(wèn)題,并對現有工作進(jìn)行綜述。具體而言,本文首先探討了父問(wèn)題——人工智能可解釋性,對人工智能可解釋性的已有定義進(jìn)行了匯總;其次,構建了一套可解釋性領(lǐng)域的理論體系,從而描述XRL與人工智能可解釋性的共同問(wèn)題,包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分了解釋的直觀(guān)性;然后,根據強化學(xué)習本身的特征,定義了XRL的三個(gè)獨有問(wèn)題,即環(huán)境解釋、任務(wù)解釋、策略解釋?zhuān)恢?,對現有方法進(jìn)行了系統的歸類(lèi),并對XRL的最新進(jìn)展進(jìn)行綜述;最后,展望了XRL領(lǐng)域的潛在研究方向。


圖片


http://www.jos.org.cn/jos/article/abstract/6485


人工智能(Artificial Intelligence, AI)和機器學(xué)習(Machine Learning, ML) 在計算機視覺(jué)[1] 、自然語(yǔ)言處理 [2] 、智能體策略[3] 等研究領(lǐng)域都取得了突破,并逐漸融入人的生活.雖然 ML 算法對于很多問(wèn)題具有良好表現,但由于算法缺乏可解釋性,模型實(shí)際使用中常受到質(zhì)疑[4] [5] ,尤其在安全敏感的應用領(lǐng)域,如自動(dòng)駕駛、醫療等.缺乏可解釋性的問(wèn)題已經(jīng)成為機器學(xué)習的瓶頸問(wèn)題之一。


強化學(xué)習(Reinforcement Learning, RL)被驗證適用于復雜的環(huán)境交互類(lèi)問(wèn)題[6]-[8],如機器人控制[9],游戲AI[10] 等.但作為機器學(xué)習的一類(lèi)方法,RL同樣面臨著(zhù)缺乏可解釋性的問(wèn)題,主要表現在如下4個(gè)方面:


(1)安全敏感領(lǐng)域中的應用受限.由于缺乏可解釋性,RL策略難以保證其可靠性,存在安全隱患.這一問(wèn)題在安全敏感任務(wù)(如醫療、駕駛等)中難以被忽略.因此,為避免模型不可靠帶來(lái)的危險,RL在安全敏感任務(wù)中大多局限于輔助人類(lèi)的決策,如機器人輔助手術(shù)[11],輔助駕駛[12]等;


(2)真實(shí)世界知識的學(xué)習困難.雖然目前RL應用在一些仿真環(huán)境中具有優(yōu)異表現,如 OpenAI gym[13],但這些仿真環(huán)境以簡(jiǎn)單游戲為主,與真實(shí)世界存在較大差異.另外,RL 應用難以避免對環(huán)境的過(guò)擬合。當過(guò)擬合發(fā)生時(shí),模型學(xué)到環(huán)境的背景信息,而非真正的知識.這導致了兩難的問(wèn)題,一方面,在真實(shí)世界中訓練 RL 模型通常消耗巨大,另一方面,難以確定在虛擬環(huán)境中訓練的模型學(xué)到了真實(shí)的規律。


(3)相似任務(wù)的策略泛化困難.RL策略通常與環(huán)境存在強耦合,難以被應用到相似環(huán)境中.甚至在同樣的環(huán)境下,環(huán)境參數的微小變化也會(huì )極大影響模型性能.這一問(wèn)題影響了模型的泛化能力,難以確定模型在相似任務(wù)中的表現。


(4)對抗攻擊的安全隱患難于應對.對抗攻擊[14]是一種針對模型輸入的攻擊技術(shù),通過(guò)將微小的惡意擾動(dòng)加入到模型的輸入中生成對抗樣本.對人而言,對抗樣本不影響判斷,甚至難以察覺(jué),然而對于模型而言,對抗樣本會(huì )使模型的輸出產(chǎn)生極大的偏差.對抗攻擊從深度學(xué)習擴展到RL[15] [16] ,成為 RL算法的安全隱患.對抗攻擊的有效性進(jìn)一步暴露了 RL 缺乏可解釋性的問(wèn)題,同時(shí)也進(jìn)一步說(shuō)明 RL 模型并未學(xué)到真正的知識。


解釋對模型的設計者和使用者都具有重要的意義.對于模型的設計者,解釋能體現模型所學(xué)的知識,便于通過(guò)人的經(jīng)驗驗證模型是否學(xué)到魯棒的知識,從而使人高效地參與到模型的設計和優(yōu)化中;對于特定領(lǐng)域的專(zhuān)家使用者,解釋提供模型的內部邏輯,當模型表現優(yōu)于人時(shí),便于從模型中提取知識以指導人在該領(lǐng)域內的實(shí)踐.對于普通用戶(hù),解釋呈現模型的決策的原因,從而加深用戶(hù)對模型的理解,增強用戶(hù)對模型的信心。


強化學(xué)習可解釋性(Explainable Reinforcement Learning, XRL),或可解釋強化學(xué)習,是人工智能可解釋性 (Explainable Artificial Intelligence, XAI)的子問(wèn)題,用于增強人對模型理解,優(yōu)化模型性能,從而解決上述缺乏可解釋性導致的4類(lèi)問(wèn)題。XRL與XAI之間存在共性,同時(shí)XRL具備自身的獨特性。


一方面,XRL 與 XAI 存在共性。首先,提供解釋的對象是智能算法而非機械算法.機械算法,如排序、查找等,其特點(diǎn)是完備的輸入,固定的解法以及明確的解.而智能算法因為輸入的不完備以及解法的不確定,導致算法必須在解空間中尋找較優(yōu)的解;其次,人和模型是兩個(gè)直接面對的關(guān)鍵實(shí)體.與其他技術(shù)不同,可解釋性方法關(guān)注人對模型的理解.由于人對大量條例混亂的數據缺乏理解,因此解釋通常對模型內在邏輯的抽象,這一過(guò)程必然伴隨對模型策略的簡(jiǎn)化.其中的難點(diǎn)是,如何在向人提供解釋時(shí),保證該解釋與模型主體邏輯的一致性;最后,解釋的難度是相對的,同時(shí)由問(wèn)題規模和模型結構兩個(gè)因素決定,并且這兩個(gè)因素在一定條件下相互轉化。例如,結構簡(jiǎn)單的模型(如決策樹(shù)、貝葉斯網(wǎng)絡(luò )等)在通??梢灾庇^(guān)的展示輸入和輸出之間的邏輯關(guān)系,但面對由大量簡(jiǎn)單結構組成的龐大模型,其錯綜復雜的邏輯關(guān)系仍然導致模型的整體不可理解.同時(shí),雖然結構復雜的模 型(如神經(jīng)網(wǎng)絡(luò ))通常難以被理解,但當模型被極致約減時(shí)(如將神經(jīng)網(wǎng)絡(luò )塌縮為具有少數變量的復合函數),模型本身仍然可以被人所理解。


另一方面,XRL 也具備自身的獨特性.強化學(xué)習問(wèn)題由環(huán)境、任務(wù)、智能體策略三個(gè)關(guān)鍵因素組成,因此,解決 XRL 問(wèn)題必須同時(shí)考慮這三個(gè)關(guān)鍵因素.由于 XRL 的發(fā)展仍處于初步階段,大部分方法直接從 XAI 的研 究中繼承,導致現有研究集中于對智能體策略的解釋,即解釋智能體行為的動(dòng)機及行為之間的關(guān)聯(lián).然而,缺乏 對環(huán)境和任務(wù)的認識使得一些關(guān)鍵問(wèn)題無(wú)從解決:缺乏對環(huán)境的認識使人在面臨復雜任務(wù)時(shí),缺乏對環(huán)境內部 規律的理解,導致對環(huán)境狀態(tài)進(jìn)行抽象時(shí)忽略有利信息,使智能體難以學(xué)到真實(shí)的規律;缺乏對任務(wù)的解釋使任 務(wù)目標與過(guò)程狀態(tài)序列之間的關(guān)聯(lián)不明確,不利于智能體策略與環(huán)境的解耦合,影響強化學(xué)習智能體策略在相 似任務(wù)或動(dòng)態(tài)環(huán)境中的泛化能力.因此,對環(huán)境、任務(wù)和策略的解釋存在強關(guān)聯(lián),是實(shí)現強化學(xué)習解釋必然面臨 的問(wèn)題. 


目前,XRL已經(jīng)成為AI領(lǐng)域的重要議題,雖然研究者們?yōu)樘岣邚娀瘜W(xué)習模型的可解釋性做出了大量工作, 但學(xué)術(shù)界對 XRL 尚且缺乏一致的認識,導致所提方法也難以類(lèi)比.為了解決這一問(wèn)題,本文探索 XRL 的基礎性 問(wèn)題,并對現有工作進(jìn)行總結.首先,本文從 XAI 出發(fā),對其通用觀(guān)點(diǎn)進(jìn)行總結,作為分析 XRL 問(wèn)題的基礎;然后, 分析 XRL 與 XAI 的共同問(wèn)題,構建出一套可解釋性領(lǐng)域的理論體系,包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分解釋的直觀(guān)性;其次,探討 XRL問(wèn)題的獨特性,提出包括環(huán)境解釋、任務(wù)解釋和策略解釋的三個(gè)XRL領(lǐng)域的獨有問(wèn)題;隨后,對現有 XRL 領(lǐng)域的研究進(jìn)展進(jìn)行總結.以技術(shù)類(lèi)別和解釋效果為依據將對現有方法進(jìn)行分類(lèi),對于每個(gè)分類(lèi),根據獲取解釋的時(shí)間、解釋的范圍、解釋的程度和 XRL的獨有問(wèn)題,確定每類(lèi)方法的屬性;最后,展望了 XRL 領(lǐng)域的潛在研究方向,重點(diǎn)對環(huán)境和任務(wù)的解釋、統一的評估標準兩個(gè)方向進(jìn)行展開(kāi).


1 人工智能可解釋性的觀(guān)點(diǎn)總結 


對 XRL 的研究不能脫離 XAI 的基礎。一方面,XRL 是 XAI 的子領(lǐng)域,其方法和定義密切相關(guān),因此 XRL 的 現有研究廣泛借鑒了 XAI 在其他方向(如視覺(jué))的成果;另一方面,XRL 目前仍處于起步階段,對其針對性的討論 較少,而對于 XAI,研究者們長(cháng)期以來(lái)進(jìn)行了廣泛的研究和討論[17] -[24] ,具有深刻的借鑒意義?;谏鲜鲈?, 本文從 XAI 的角度探討可解釋性問(wèn)題,整理出學(xué)術(shù)界對 XAI 的共識,以此作為 XRL 的研究基礎。 


雖然學(xué)者們從不同角度對 XAI 的定義在特定情況下指導著(zhù)一類(lèi)研究。然而,缺乏精確而統一的定義使得學(xué) 術(shù)界對 XAI 的認識存在一定差異。本文對 XAI 相關(guān)的定義進(jìn)行總結,并將其分為形而上的概念描述、形而下的概念描述兩類(lèi)。 


形而上的概念描述使用抽象概念對可解釋性進(jìn)行定義[25] -[28] 。這些文獻使用抽象的詞描述可解釋性算法,例如可信性(trustworthy),可靠性(reliability)等。其中可信性意味著(zhù)人以較強的信心相信模型所做的決定,而可靠性意味著(zhù)模型不同場(chǎng)景下總是能保持其性能。雖然這樣抽象的概念不夠精確,只能產(chǎn)生直觀(guān)的解釋?zhuān)匀豢梢允谷藴蚀_了解可解釋性的目標、對象和作用,建立對可解釋性的直覺(jué)認知。這些概念表明,可解釋性算法具備兩個(gè)關(guān)鍵實(shí)體,即人和模型。換而言之,可解釋性是一項以模型為對象,以人為目標的技術(shù)。 


形而下的概念描述從哲學(xué)、數學(xué)等的觀(guān)點(diǎn)出發(fā),基于解釋的現實(shí)意義對其進(jìn)行定義。如 Páez 等人[17] 從哲學(xué)角度出發(fā),認為解釋所產(chǎn)生的理解并不完全等同于知識,同時(shí)理解的過(guò)程也不一定建立在真實(shí)的基礎上。我們認為,解釋作為媒介存在,這個(gè)媒介通過(guò)呈現模型的真實(shí)知識或構建虛擬邏輯的方式,增強人對模型的理解。同時(shí),人對模型的理解不必建立在完全掌握模型的基礎上,只要求掌握模型的主要邏輯,并能對結果進(jìn)行符合認知的預測。Doran等人[29]認為,可解釋性系統使人們不僅能看到,更能研究和理解模型輸入和輸出之間的數學(xué)映射。一般而言,AI算法的本質(zhì)是一組由輸入到輸出的數學(xué)映射,而解釋則是將這樣的數學(xué)映射以人類(lèi)可理解和研究的方式展現出來(lái)。雖然數學(xué)映射也是人們?yōu)槊枋鍪澜缍鴦?chuàng )造的一種方式,但對于復雜的數學(xué)映射(如用于表示神經(jīng)網(wǎng)絡(luò )的高維多層嵌套函數),人們卻無(wú)法將其與生活中的直觀(guān)邏輯相聯(lián)系。Tjoa等人[19]認為,可解釋性是用于解釋算法做出的決策,揭示算法運作機制中的模式以及為系統提供連貫的數學(xué)模型或推導。這一解釋也基于數學(xué)表達,反映出人們更多地通過(guò)模型的決策模式來(lái)理解模型,而非數學(xué)上的可重現性。


一些觀(guān)點(diǎn)與上述文獻存在微小出入,但仍具有借鑒意義。例如,Arrieta等人[21] 認為可解釋性是模型的被動(dòng)特征,指示模型被人類(lèi)觀(guān)察者理解的程度。這個(gè)觀(guān)點(diǎn)將模型的可解釋性視為被動(dòng)特征,忽略了模型為了更強的可解釋性而主動(dòng)提出解釋的可能。Das等人[23] 認為,解釋是一種用于驗證 AI 智能體或 AI 算法的方式。這一觀(guān)點(diǎn)傾向于關(guān)注模型的結果,其目的是為了確保模型一貫的性能。然而該描述忽略了一個(gè)事實(shí),即模型本身意味著(zhù)知識,可解釋性不僅是對模型結果的驗證,同時(shí)也有助于從模型中提取人們尚未掌握的知識,促進(jìn)人類(lèi)實(shí)踐的發(fā)展。雖存在較小出入,但上述觀(guān)點(diǎn)也提出了獨特的角度,例如,可以將模型的可解釋性視為模型的一個(gè)特性,而評估模型的性能是解釋的重要功能。 


雖然對 XAI 的定義眾多,但就整體而言,學(xué)術(shù)界對 XAI 的基本概念仍然是一致的。本文嘗試提取其中的共性作為研究 XRL 問(wèn)題的理論基礎。通過(guò)對以上文獻的分析,我們總結出學(xué)術(shù)界對 XAI 的共識:


(1)人與模型是可解釋性直接面對的兩個(gè)關(guān)鍵的實(shí)體,可解釋性是一項以模型為對象,以人為目標的技術(shù);

(2)解釋作為理解的媒介存在,該媒介可以是真實(shí)存在的事物,也可以是理想構建的邏輯,亦或是二者并舉,達到讓人能夠理解模型的目的;

(3)人的對模型的理解不需要建立在完全掌握模型的基礎上;

(4)可準確重現的數學(xué)推導不可取代可解釋性,人對模型的理解包括感性和理性的認知;

(5)可解釋性是模型的特性,這一特性可用于驗證模型的性能。


2 強化學(xué)習可解釋性與人工智能可解釋性的共同問(wèn)題 


在對 XAI 定義進(jìn)行總結的基礎上,本節討論 XRL 與 XAI 面臨的共同問(wèn)題。由于 XRL 與 XAI 之間存在強 耦合,因此本節內容既適用于 XAI,同時(shí)也是 XRL 的基礎問(wèn)題。 


2.1 智能算法和機械算法界定 


可解釋性的對象是智能算法而非機械算法。傳統認知中的機械算法,如排序、查找等,面對確定的任務(wù)目標,同時(shí)具有固定的算法程序。強化學(xué)習作為一種智能算法,在與環(huán)境動(dòng)態(tài)交互的過(guò)程中尋找最優(yōu)的策略,最大化獲得的獎賞。界定智能算法和機械算法可用于確定被解釋的對象,進(jìn)而回答「什么需要被解釋」的問(wèn)題。一方面,智能算法與機械算法存在差異,而解釋只在面向智能算法時(shí)存在必要性;另一方面,即使對于強化學(xué)習,也無(wú)需對其所有過(guò)程產(chǎn)生解釋?zhuān)鴳槍ζ渚哂兄悄芩惴ㄌ匦缘牟糠诌M(jìn)行解釋?zhuān)鐒?dòng)作生成、環(huán)境狀態(tài)轉移等。因此,在討論可解釋性問(wèn)題前,有必要區分智能算法和機械算法。 


本文根據算法對已知條件的獲取程度和建模的完整性,定義「完全知識」和「完全建?!梗?/span>


  • 完全知識:已知足夠任務(wù)相關(guān)的有效知識,具備以機械過(guò)程獲得最優(yōu)解的條件;

  • 完全建模:進(jìn)行完整的問(wèn)題建模,具備完成任務(wù)所需的計算能力;

  • 完全知識是以機械方法確定最優(yōu)解的前提。例如,求解系數矩陣的秩為的線(xiàn)性方程組,完全知識表示其增廣矩陣的秩大于等于系數矩陣的秩,此時(shí)可以根據當前知識,獲得確定的解或者確定其無(wú)解;完全建模意味著(zhù)對現有知識的充分利用,換言之,完全建模從建模者的角度出發(fā),表示在解決任務(wù)的過(guò)程中有能力(包括程序設計者的設計能力和硬件的算力)利用所有的知識。例如,在 19×19 圍棋游戲中,存在理論上的最優(yōu)解法,但目前尚不具備足夠的計算能力在有限時(shí)間內獲取最優(yōu)解。 


根據上述對完全知識和完全建模的定義,本文進(jìn)一步提出「任務(wù)完全」的概念來(lái)確定機械算法與智能算法之間的邊界:


  • 任務(wù)完全:對特定任務(wù),具備完全知識并進(jìn)行完全建模。 

  • 任務(wù)完全必須在完全知識的前提下進(jìn)行完全建模。滿(mǎn)足任務(wù)完全的條件后,算法的優(yōu)劣取僅決于建模方式和使用者的實(shí)際需求。任務(wù)完全的定義考慮了知識和建模兩方面因素(圖1)。 


任務(wù)完全的概念可以用來(lái)區分機械算法和智能算法。機械算法是任務(wù)完全的,具體來(lái)說(shuō),算法已知足夠的知識,并進(jìn)行了無(wú)簡(jiǎn)化的建模。此時(shí),算法具備獲取最優(yōu)解的條件,因此算法的過(guò)程是確定的,獲得的解也是可預期的。例如,經(jīng)典排序算法、傳統數據查詢(xún)、3×3井字棋游戲算法等都屬于機械算法。智能算法是任務(wù)不完全的,這意味著(zhù)算法不具備足夠的知識,或者采取了簡(jiǎn)化的建模方式。智能算法無(wú)法直接獲取最優(yōu)解,通常在解空間中尋找較優(yōu)的解。如基于貪心策略的算法,線(xiàn)性回歸方法,19×19傳統圍棋策略,機器學(xué)習類(lèi)算法等。


導致任務(wù)不完全的可能有二,即知識不完全和建模不完全。在知識不完全的情況下,算法無(wú)法直接確定最優(yōu)解,因此只能在解空間中逼近最優(yōu)解。此時(shí),智能算法的實(shí)際作用是在解空間中進(jìn)行解的選擇。導致知識不完全的因素通常是客觀(guān)的,如環(huán)境狀態(tài)無(wú)法被完全觀(guān)測,任務(wù)目標不可預知,任務(wù)評價(jià)指標的不可知,任務(wù)始終點(diǎn)不可知等等;在建模不完全的情況下,算法通常忽略某些知識,導致算法過(guò)程沒(méi)有充分利用知識,從而無(wú)法獲得最優(yōu)解。建模不完全的原因有客觀(guān)和主觀(guān)兩方面,客觀(guān)原因如建模偏差,不完全建模等,主觀(guān)原因包括降低硬件需求,模型提速等。在強化學(xué)習中,并非所有過(guò)程具備任務(wù)不完全的特點(diǎn),因此只有部分需要進(jìn)行解釋?zhuān)绮呗陨?、環(huán)境狀態(tài)轉移等。


圖片


2.2 對「解釋」的定義 


在漢語(yǔ)詞典中,解釋有「分析、闡明」的含義。這不僅符合生活中對該詞的理解,同時(shí)也與可解釋性研究中「解釋」的含義相近。然而,具體到可解釋性的研究中,這一含義顯得寬泛。我們希望結合對可解釋性的理解,細化「解釋」的含義,使之具有更強的指導意義。以強化學(xué)習模型為例,模型學(xué)習使獎勵最大化的策略,其中包含著(zhù)環(huán)境、獎勵和智能體之間的隱式知識,而 XRL 算法則是將這些隱式知識顯式地表現出來(lái)。本文將多個(gè)知識視為集合,稱(chēng)為知識體系,從知識體系相互之間關(guān)系的角度,對「解釋」做出如下定義:


解釋?zhuān)褐R體系之間的簡(jiǎn)潔映射。簡(jiǎn)潔映射是在不引入新知識的條件下對目標知識進(jìn)行表達;


具體來(lái)說(shuō),解釋是將基于原知識體系的表達轉換為目標知識體系表達的過(guò)程,這個(gè)過(guò)程僅使用目標知識體系的知識,而不引入新的知識。而 XRL 算法的目的在于產(chǎn)生解釋?zhuān)瑥亩乖R體系能夠被目標知識體系簡(jiǎn)潔的表達出來(lái)。在 XRL 中,原知識體系通常指代強化學(xué)習模型,而目標知識體系通常指人的認知,模型和人是可解釋性的兩個(gè)關(guān)鍵實(shí)體。本文將原知識體系看作由多個(gè)元知識及其推論構成的集合。以表示元知識, 表示知識體系,則。假設智能體習得的知識屬于知識體系,而人類(lèi)能夠理解的知識屬于知識體系,則解釋是將知識體系 轉換為知識體系 表達的過(guò)程。對于解釋而言,簡(jiǎn)潔映射是必要的,非簡(jiǎn)潔的映射可能提升解釋本身的被理解難度,進(jìn)而導致解釋本身讓人無(wú)法理解(見(jiàn)2.3 )。 


在對知識進(jìn)行轉換表達的過(guò)程中,待解釋的知識可能無(wú)法完全通過(guò)目標知識體系進(jìn)行描述,這時(shí)只有部分知識可以被解釋。本文使用「完全解釋」和「部分解釋」的概念描述這一情況:


  • 完全解釋?zhuān)捍忉尩闹R完全被目標知識體系表達。其中,被解釋的知識屬于目標知識體系是其必要條件;

  • 部分解釋?zhuān)捍忉尩闹R的部分被目標知識體系表達。


具體來(lái)說(shuō),完全解釋和部分解釋描述的是知識體系之間的包含情況(圖2)。只有當待解釋的知識體系完全被目標知識體系所包含時(shí),才可能進(jìn)行完全解釋?zhuān)駝t只能進(jìn)行部分解釋。在 XRL 中,完全解釋通常是不必要的。


一方面,待解釋知識體系和目標知識體系的邊界難以確定,導致完全解釋難度高且耗費巨大;另一方面,實(shí)現對模型的解釋通常不需要建立在對模型完全掌握的基礎上。因此,部分解釋是大部分可解釋性研究中采用的方法,即只描述算法的主要決策邏輯。


圖片


2.3 可解釋性的影響因素 


一個(gè)觀(guān)點(diǎn)認為,傳統ML(RL 為其子集)方法是易于解釋的,而深度學(xué)習的引入使得可解釋性產(chǎn)生了短板,導致ML難于解釋?zhuān)虼?ML 解釋的本質(zhì)是對深度學(xué)習的解釋[21]。這與可解釋性領(lǐng)域的認知相悖[28]。這一觀(guān)點(diǎn)只關(guān)注模型而忽略了人在可解釋性中的地位。對于人而言,即使是理論上可被理解的模型,當規模擴張到一定程度時(shí),仍然會(huì )導致整體的不可理解。本文對可解釋性的影響因素進(jìn)行如下定義:


  • 透明度:待解釋模型結構的簡(jiǎn)潔程度;

  • 模型規模:待解釋模型包含的知識量和知識組合多樣化程度;


本文認為,可解釋性是對模型組件透明度和模型規模的綜合描述。透明度和模型規模是影響可解釋性的兩個(gè)主要因素。具體來(lái)說(shuō),可解釋性強意味著(zhù)同時(shí)具備高透明度和低復雜度,而單一因素,如復雜度高或透明度低將導致模型的弱可解釋性(圖3)。 


在不同語(yǔ)境下,「透明」一詞具有不同的含義。例如,在軟件結構中,透明指的是對底層過(guò)程的抽象程度,意味著(zhù)上層程序無(wú)需關(guān)注底層的實(shí)現。類(lèi)似的,透明度在可解釋性領(lǐng)域也存在不同的含義,如文獻[26][27]認為透明度是模型可以被理解的程度,將透明度與可解釋性等價(jià)。以強化學(xué)習為例,基于值表的強化學(xué)習算法在規模一定時(shí)通常具有更強的可解釋性,而使用深度學(xué)習擬合值表則可解釋性更弱,這是因為通過(guò)查詢(xún)值表而產(chǎn)生策略的過(guò)程符合人的直觀(guān)理解,但神經(jīng)網(wǎng)絡(luò )傳播過(guò)程僅在數學(xué)上可被準確描述,于人而言透明度更低。然而,這一思考將構建模型的基礎結構作為可解釋性的重點(diǎn),而忽略了模型規模對解釋帶來(lái)的難度,并忽略了解釋的目標——人。因此,為突出模型規模對解釋的影響,我們僅將透明度狹義理解為待解釋模型的結構的簡(jiǎn)潔程度。 


模型規模從人理解能力的角度衡量解釋的難度。具體來(lái)說(shuō),假設模型中的知識由一系列元知識構成,則模型規模表示元知識總量和知識之間組合的多樣化程度,而解釋的難度一定程度上取決于模型規模,當模型規模超過(guò)特定范圍(人的理解能力)時(shí)模型將無(wú)法被理解。例如,線(xiàn)性加性模型、決策樹(shù)模型、貝葉斯模型,由于計算過(guò)程簡(jiǎn)潔,使我們能夠輕易了解模型基于何因素得到何種結果,因此被認為是易于理解的。然而,當模型規模逐漸龐大時(shí),各因素之間的邏輯不可避免地相互交織,變得錯綜復雜,使我們最終無(wú)法抓住其主從關(guān)系。對于以簡(jiǎn)潔結構(如決策樹(shù)分支)構成的大規模模型,雖然所有結果在理論上有跡可循,但當模型規模已超越人類(lèi)的理解能力,導致系統整體將仍然不具備可解釋性。


圖片


2.4 可解釋性的程度劃分 


人的學(xué)習過(guò)程與強化學(xué)習過(guò)程存在一定的相似性,因此,如果將人腦看作目前最先進(jìn)的智能模型,則人對模型的理解不僅僅是人對模型的直觀(guān)感受,也是一個(gè)先進(jìn)的智能體對強化學(xué)習模型的綜合評估。然而,一個(gè)無(wú)法理解的模型不可能被有效評估,因此對模型的解釋成為人理解模型的媒介。作為人和模型之間媒介,可解釋性算法不同程度的具備兩個(gè)相互平衡特點(diǎn):接近模型和接近人的感知。具體來(lái)說(shuō),不同的解釋有的更注重準確的描述模型,而另一些更注重與人的感知一致?;谶@一概念,本文將可解釋性分為如下三個(gè)層次:


(1)數學(xué)表達:通過(guò)理想化的數學(xué)推導解釋模型。數學(xué)表達是使用數學(xué)語(yǔ)言簡(jiǎn)化模型的表達。由于強化學(xué)習模型建立在數學(xué)理論的基礎上,因此通過(guò)數學(xué)表達可以準確地描述和重構模型。雖然數學(xué)理論體系是人描述世界的一種重要方式,但其與人的普遍直覺(jué)之間存在較大差異。以深度學(xué)習為例,雖然存在大量文章論證了其在數學(xué)上的合理性,但深度學(xué)習方法仍然被認為是不可解釋的。因此,數學(xué)的表達能夠在微觀(guān)(參數)層面對模型進(jìn)行描述,但難以遷移至人類(lèi)知識體系;


(2)邏輯表達:通過(guò)將模型轉換為顯性的邏輯規律解釋模型。邏輯表達是對模型中主體策略的提取,即忽略其細微分支,凸顯主體邏輯。一方面,邏輯表達保留了模型的主體策略,因此與模型真實(shí)決策結果相近,解釋本身可以部分重現模型的決策;另一方面,邏輯表達簡(jiǎn)化了模型,符合人的認知。邏輯表達是較為直觀(guān)的解釋?zhuān)枰司邆涮囟I(lǐng)域的知識,是面對人類(lèi)專(zhuān)家的解釋?zhuān)鴮σ话阌脩?hù)尚不夠直觀(guān);


(3)感知表達:通過(guò)提供符合人類(lèi)直覺(jué)感知的規律解釋模型。感知表達基于模型生成符合人類(lèi)感知的解釋?zhuān)捎诓恍枰司邆涮囟I(lǐng)域的知識,因此易于理解。例如,可視化關(guān)鍵輸入、示例對比等解釋形式都屬于感知表達的范疇。然而,感知表達通常是對模型策略的極大精簡(jiǎn),因為無(wú)法重現模型的決策,導致其只解釋決策的合理性。 


在可解釋性的三個(gè)層次中,數學(xué)表達作為第一個(gè)層次,也是構建強化學(xué)習算法的理論基礎。在已知模型所有參數的情況下,數學(xué)表達通??梢暂^為準確的推斷出模型的結果,然而,數學(xué)上的合理性不意味著(zhù)能被人所理解;邏輯表達介于數學(xué)表達和感知表達之間,是對模型策略的近似,但邏輯表達方法產(chǎn)生的解釋通常要求用戶(hù)具備特定領(lǐng)域的專(zhuān)業(yè)知識;感知表達對模型決策的重要因素進(jìn)行篩選,并使用清晰、簡(jiǎn)潔的形式進(jìn)行呈現,雖然結果易于理解,但已經(jīng)不具備重構策略的能力??偠灾?,不同的解釋在接近模型和接近人類(lèi)感知之間存在著(zhù)平衡,難以兼顧。


3 強化學(xué)習可解釋性的獨有問(wèn)題 


與其他 ML 方法不同,RL 問(wèn)題由環(huán)境、任務(wù)、智能體三個(gè)關(guān)鍵因素組成。其中,環(huán)境為給定的具有一定內部規律的黑盒系統;任務(wù)為智能體為最大化其平均獎賞的而擬合的目標函數;策略是智能體行為的依據和一系列行為之間的關(guān)聯(lián)。根據強化學(xué)習的三個(gè)關(guān)鍵組成因素,本文歸納出 XRL 的三個(gè)獨有問(wèn)題,即環(huán)境解釋?zhuān)蝿?wù)解釋?zhuān)呗越忉?。三個(gè)獨有問(wèn)題之間存在著(zhù)密切的關(guān)聯(lián),與整個(gè)強化學(xué)習過(guò)程密不可分,是實(shí)現強化學(xué)習解釋直接面臨的問(wèn)題。


4 強化學(xué)習可解釋性研究現狀


由于XRL涉及的領(lǐng)域廣泛,學(xué)者從各領(lǐng)域的角度出發(fā),導致所提出的方法具有較大差異。因此,本節分兩步對相關(guān)方法進(jìn)行總結。首先,根據技術(shù)類(lèi)別和解釋的展現形式,將現有方法分為視覺(jué)和語(yǔ)言輔助解釋、策略模仿、可解釋模型、邏輯關(guān)系提取和策略分解五個(gè)類(lèi)別。然后,在通用分類(lèi)方法(即獲取解釋的時(shí)間、解釋的范圍)的基礎上,結合本文所提出的分類(lèi)依據(即解釋的程度,面對的關(guān)鍵科學(xué)問(wèn)題),確定不同類(lèi)別方法的屬性。


在可解釋性領(lǐng)域中,分類(lèi)通?;讷@取解釋的時(shí)間和解釋的范圍兩個(gè)因素[31]。具體而言,根據獲取解釋的時(shí)間,可解釋性方法被分為固有(intrinsic)解釋和事后(post-hoc)解釋。固有解釋通過(guò)限制模型的表達,使模型在運行時(shí)生成具備可解釋性的輸出。例如,基于較強可解釋性的原理和組件(決策樹(shù)、線(xiàn)性模型等)構造模型,或者通過(guò)增加特定過(guò)程使模型生成可解釋性的輸出;事后解釋是通過(guò)對模型行為的分析,總結模型的行為模式,從而達到解釋的目的。通常而言,固有解釋是策略產(chǎn)生過(guò)程中的解釋?zhuān)囟ㄓ谀硞€(gè)模型,而事后解釋是策略產(chǎn)生后的解釋?zhuān)c模型無(wú)關(guān)。根據解釋的范圍,可解釋性方法被分為全局(global)解釋和局部(local)解釋?zhuān)纸忉尯雎阅P偷奈⒂^(guān)結構(如參數、層數等因素),從宏觀(guān)層面提供對模型的解釋?zhuān)植拷忉審奈⒂^(guān)入手,通過(guò)分析模型的微觀(guān)結構獲得對模型的解釋。


除上述可解釋性的通用分類(lèi)之外,本文基于解釋與模型和人類(lèi)感知的符合程度,將可解釋性方法分為數學(xué)表達、邏輯表達和感知表達三類(lèi)(見(jiàn)2.4)。這三類(lèi)可解釋性方法體現出可解釋性算法在解釋的形式、解釋與模型結果的近似程度和解釋的直觀(guān)度等方面的區別。前文(見(jiàn)3)分析了XRL面臨的3個(gè)關(guān)鍵問(wèn)題,即環(huán)境解釋?zhuān)蝿?wù)解釋和策略解釋。目前,單個(gè)XRL方法難以同時(shí)解決三類(lèi)問(wèn)題,因此,我們也以此為依據,對當前 XRL 方法所著(zhù)眼的問(wèn)題進(jìn)行區分。


綜上所述,本文以「獲取解釋的時(shí)間」、「解釋的范圍」、「解釋的程度」以及「關(guān)鍵問(wèn)題」為依據,對XRL方法進(jìn)行分類(lèi)(見(jiàn)表1)。由于算法多樣,表1僅顯示大類(lèi)別算法的特點(diǎn),部分算法可能不完全符合


圖片


總結 


本文以 XRL 的問(wèn)題為中心,討論了該領(lǐng)域的基礎問(wèn)題,并對現有方法進(jìn)行總結。由于目前在 XRL 領(lǐng)域,乃至 整個(gè) XAI 領(lǐng)域尚未形成完整、統一的共識,導致不同研究的基礎觀(guān)點(diǎn)存在較大差異,難于類(lèi)比。本文針對該領(lǐng)域 缺乏一致認知的問(wèn)題,進(jìn)行了較為深入的研究工作。首先,本文參考 XRL 領(lǐng)域的父問(wèn)題——XAI,收集 XAI 領(lǐng)域 的現有觀(guān)點(diǎn),并整理出 XAI 領(lǐng)域較為通用的認識;其次,以 XAI 領(lǐng)域的定義為基礎,討論 XAI 與 XRL面臨的共同問(wèn)題;然后,結合強化學(xué)習自身的特點(diǎn),提出 XRL 面臨的獨有問(wèn)題;最后,總結了相關(guān)的研究方法,并對相關(guān)方法進(jìn)行分類(lèi)。分類(lèi)中包括作者明確指出為 XRL 的方法,也包括作者雖未著(zhù)重強調,但實(shí)際對 XRL 有重要意義的方法。XRL 目前尚處于初步階段,因此存在大量亟待解決的問(wèn)題。本文重點(diǎn)提出環(huán)境和任務(wù)的解釋、統一的評估標準兩類(lèi)問(wèn)題。本文認為這兩類(lèi)問(wèn)題是為類(lèi) XRL 領(lǐng)域的基石,是值得重視的研究領(lǐng)域。


參考資料:

http://www.jos.org.cn/jos/article/abstract/6485



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>