人類和AI的決策協作：決策問題的表述、解釋和評價

作者：FlerkenS 2024-02-01 08:15:24

為人工智能、數據可視化、人機交互等領域的研究者提供了一個客觀和嚴謹的決策性能損失的評估和分析的方法，以便更好地識別和改善人類和人工智能的決策協作的效果和質量。

在人工智能、數據可視化等領域，如何利用信息顯示來輔助人類做出更好的決策，是一個重要的研究目標。什么是一個決策問題，以及如何設計一個能夠有效評估人類決策的實驗，沒有一個明確的共識。在這篇文章中，我將為您解讀一篇最新的論文，它提出了一個基于統計決策理論和信息經濟學的決策問題的定義，以及一個評估人類決策性能損失的框架。

《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》論文的三位美國專家提供信息界面以幫助決策是以人為中心的人工智能（HCAI）、可視化和相關領域研究的共同目標。例如，可視化研究人員強調輔助決策是數據可視化的一個重要目標。同樣在以人為中心的人工智能中，大量關于人類決策行為的實證研究被認為“有必要評估人工智能技術在輔助決策方面的有效性，也有必要對人們如何與人工智能互動以做出決策形成基本理解”。

他們主張，通過信息顯示對人類決策的研究，為任務確定一組最小的理論承諾是“明確定義的”，也就是說有可能建立規范的行為。幸運的是，現有的理論能夠應對這一挑戰。統計決策理論和期望效用理論為研究決策提供了一個嚴格推導且廣泛適用的框架。信息經濟學將決策問題的信息結構形式化，這可能是由關于如何可視化或解釋模型預測的設計選擇引起的。

他們綜合了統計決策理論和信息經濟學中定義明確的決策問題的一個廣泛適用的定義，并從數據驅動的界面激發了這種方法在HCAI和相關決策研究中的價值。他們的第一個貢獻是建立和激勵決策問題必須定義的最小組成部分集，以識別最佳決策，從而識別人類決策中的偏差。使用理性貝葉斯代理的概念，他們展示了只有當研究參與者在理論上能夠從他們提供的信息中識別出規范決策時，才能考慮到績效損失。他們發現在46項現有研究的樣本中，有35項研究通過預測顯示得出了關于人類決策缺陷的結論，但其中只有6項（17%）是明確的研究任務，因為參與者得到了足夠的信息，至少在原則上可以確定最佳決策。他們用例子來說明這些結論的認識論風險，并為實驗者提供建議，以提高其研究結果的可解釋性。

論文作者背景

這篇論文的題目是《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》，由Jessica Hullman, Alex Kale, Jason Hartline三位來自美國西北大學的計算機科學家合作撰寫，于2024年1月25日在arXiv上發表（論文地址：https://arxiv.org/abs/2401.15106）。這三位作者都是人工智能、數據可視化、人機交互等領域的知名學者，他們的研究成果發表在頂級的學術會議和期刊上，如ACM CHI, ACM CSCW, IEEE VIS, ACM EC等。他們的研究興趣主要集中在如何利用人工智能和數據可視化來幫助人類理解和決策復雜的不確定性問題，如風險評估、預測、推薦等。

論文主要貢獻

提出了一個通用的決策問題的定義，包括行動空間、狀態空間、評分規則、先驗信念、數據生成模型和信號策略等組成部分，以及如何根據這些組成部分來確定最優的行動和期望的效用。

提出一個評估人類決策性能損失的框架，包括先驗損失、接收損失、更新損失和優化損失等四種可能的損失來源，以及如何根據實驗設計和結果來估計和分析這些損失。

對近年來人工智能輔助決策的研究進行了編碼和評估，發現只有很少一部分的研究（17%）向參與者提供了足夠的信息來識別規范的決策，而大多數的研究（83%）都存在決策問題的不明確和不完整，導致對人類決策的偏差和缺陷的結論是不可靠的。

理論基礎和方法

這篇論文的理論基礎主要來自于統計決策理論和信息經濟學。統計決策理論是一門研究如何在不確定性條件下做出最優選擇的學科，它主要關注的是決策者的偏好、信念和行動之間的關系，以及如何利用數據和信息來更新信念和選擇行動。信息經濟學是一門研究信息對經濟行為和結果的影響的學科，它主要關注的是信息的生產、傳播和消費的機制和激勵，以及信息的不對稱、不完全和不可靠對市場和社會的影響。

這篇論文的方法主要是基于貝葉斯理論和期望效用理論。貝葉斯理論是一種用來描述和推理不確定性的概率理論，它主要關注的是如何根據先驗信念和觀察到的數據來計算后驗信念，即某個假設或事件在給定數據的條件下發生的概率。期望效用理論是一種用來描述和評估風險決策的理論，它主要關注的是如何根據效用函數和概率分布來計算期望效用，即某個行動在不同狀態下產生的效用的加權平均值。

決策問題的定義

他們定義了一個決策問題和相應的最優行為標準，以確定相對于該標準的性能損失。他們的定義旨在對人類行為進行受控評估，也就是規范性決策研究。這種評估性研究要求能夠確定研究參與者被詢問的任何狀態的基本事實。行為數據（可以由人類或模擬產生）是在受控條件下收集的，目的是了解信息提供引起的行為。這類研究經常用于描述某些情況下人類表現的質量（例如，人們在戰略環境中根據顯示器做出決策的程度），根據人類表現對不同的輔助元素進行排名（例如，不同的可視化或人工智能解釋策略），或者測試關于人類如何做出決策或什么將幫助他們做得更好的假設（例如，認知強迫功能將改善人工智能輔助決策）。

最優行動和期望效用的計算

給定如上定義的決策問題，他們通過假設代理人在結果不確定的情況下具有一致的偏好并在行動之間做出最佳決定意味著什么，來計算規范（“最優”）決策。因此他們可以將實驗參與者的表現解釋為試圖達到這一標準，并確定表現中的錯誤（損失）來源。

為此，他們將首先假設代理的偏好可以通過評分規則來概括. 假設他將選擇最大化其預期效用（得分）的動作：

圖片

描述了主體的信念分布，即主體相信世界狀態的概率分布。我們可以將最優行動定義為使代理的預期效用最大化的行動：

圖片

具體來說，為了計算決策任務的最優決策，他們首先定義代理在從π: Pr(θ) 或p(θ) 正如我們上面所描述的。每當信號策略未顯示時π(θ |u) 直接通過信號，但確實通知θ, 我們假設，在看到信號后，代理根據他們對數據生成模型的了解，使用貝葉斯規則將他們對信號和狀態的先前信念更新為后驗信念π:

圖片

u是一個歸一化因子。注意方程3中的定義意味著要計算q(θ)代理人知道。

圖片

給定這些后驗信念，我們使用方程2來確定完全理性主體為了最大化其預期效用而選擇的行動S.

作者的計算框架為人類和人工智能的決策協作提供了一個有用的工具，可以幫助分析和改善人類的決策行為和效果，以及提高人類的決策質量和滿意度。他們的計算框架也為決策理論和方法的拓展和深入提供了一個啟發和創新的空間，可以探索更多的決策因素和機制，以及更多的決策模式和策略。

人類決策性能損失的評估

使用上述框架的主要動機本質上是認識論的，它們涉及我們對實驗結果的了解。為了將人類決策實驗中對決策問題的反應解釋為錯誤決策過程的證據，實驗必須向參與者提供足夠的信息，原則上確定用于判斷其行為的規范決策。換言之，實驗是否為參與者提供了足夠的信息，使他們對決策問題的理解與其規范解釋相一致？

他們發現神經網絡模型可以重現并超越已有的心理學研究，例如前景理論，基于環境的模型，混合模型等。神經網絡模型可以根據不同的假設，自動地學習出不同的風險認知函數，以及它們之間的權重。作者還發現，人類的風險認知函數是非線性的，場景相關的，以及概率和收益之間存在相互依賴的關系。這些發現說明了人類的風險決策是極為復雜的，不能歸因于簡單的假設。

作者使用了一個簡單的指標，來衡量人類決策性能損失的程度，即人類的選擇與最優選擇之間的差異的平均值。作者發現，人類的決策性能損失在不同的場景中有很大的變化，從0.01到0.5不等。作者還發現，人類的決策性能損失與神經網絡模型的預測誤差呈正相關，即神經網絡模型越難以預測人類的選擇，人類的決策性能損失就越大。這說明了神經網絡模型可以有效地捕捉人類的風險認知的特征，以及人類的風險決策的不理性和不一致性。

作者的評估框架為人類和人工智能的決策協作提供了一個有用的工具，可以幫助分析和改善人類的決策行為和效果，以及提高人類的決策質量和滿意度。作者的評估框架也為決策理論和方法的拓展和深入提供了一個啟發和創新的空間，可以探索更多的決策因素和機制，以及更多的決策模式和策略。

實證分析和結果

這篇論文的實證分析主要是對近年來人工智能輔助決策的研究進行了編碼和評估，以檢驗這些研究是否符合決策理論的框架，是否對人類決策的缺陷或損失做出了合理的結論。作者從Lai et al.的文獻綜述中隨機抽取了46篇研究，這些研究都是在2018年至2021年期間發表在ACM或ACL的會議上的，涉及分類或回歸問題的人工智能輔助決策的實驗。

作者根據以下三個方面對這些研究進行了編碼。

決策理論框架的適用性：是否存在一個可以確定的真實狀態，以及是否存在一個與狀態相關的收益或損失。

人類決策的評估：是否對人類決策的表現或質量做出了評價或判斷，例如指出了過度依賴或不足依賴人工智能的現象，或者推測了人類決策的原因或影響因素。

決策問題的明確性：是否向參與者提供了足夠的信息來識別規范的決策，包括行動空間、狀態空間、評分規則、先驗信念、數據生成模型和信號策略等。

作者的編碼結果顯示，有11篇研究（24%）的任務沒有一個可以確定的真實狀態，例如主觀的音樂或電影推薦或情感識別等，這些研究不適用于決策理論框架。剩下的35篇研究（76%）都對人類決策的表現或質量做出了評價或判斷，但是只有6篇研究（17%）向參與者提供了足夠的信息來識別規范的決策，而其他的29篇研究（83%）都存在決策問題的不明確和不完整，導致對人類決策的偏差和缺陷的結論是不可靠的。作者還對這些研究的具體問題和改進方法進行了詳細的分析和討論，例如缺乏先驗信念的傳達、缺乏后驗信念的計算、缺乏評分規則的動機和比較等。作者認為，這些問題都源于研究者對決策問題的定義和傳達的不足，以及對實驗世界和實際世界的關系的不清楚。作者建議研究者在設計實驗時，要充分考慮決策理論的框架，要明確地向參與者和讀者傳達決策問題的所有必要組成部分，以便對人類決策行為進行有效的評估和改進。

未來工作

這篇論文的局限性主要來自于期望效用理論和規范方法的挑戰和批評。期望效用理論是一種基于理性和最優化的決策理論，它假設決策者有完全的信息和計算能力，以及一致和穩定的偏好。然而這些假設在實際世界中往往不成立，人類的決策行為可能受到認知、情感、社會、道德等因素的影響，導致偏離期望效用理論的預測。規范方法是一種基于價值和目標的決策方法，它假設決策者有一個明確的價值目標，以及一種評估不同行動對價值目標的影響的方法。然而，這些假設在實際世界中也往往不成立，人類的價值觀可能是多元的、動態的、模糊的，而且可能與其他人或社會的價值觀存在沖突或協調。因此，這篇論文的框架和方法可能不適用于一些主觀、復雜、多目標的決策問題，也可能忽略了一些人類決策的內在價值和意義。

未來工作主要是在以下四個方面進行拓展和深入。

探索其他的決策理論和方法，例如行為經濟學、多屬性效用理論、多準則決策分析等，以更好地描述和評估人類的實際決策行為和偏好。

研究不同的信息顯示和交互方式，例如自然語言、圖形、聲音、觸覺等，以更好地傳達和解釋決策問題的各個組成部分，以及提高人類的信息接收和處理能力。

嘗試不同的激勵和反饋機制，例如獎勵、懲罰、信譽、聲譽、社會影響等，以更好地激發和維持人類的決策動機和參與度，以及提高人類的決策學習和改進能力。

展開不同的人工智能和人類的協作模式，例如輔助、建議、代理、協商、協調等，以更好地平衡和利用人工智能和人類的優勢和劣勢，以及提高人工智能和人類的信任和滿意度。

意義和價值

這篇論文為人工智能、數據可視化、人機交互等領域的研究者提供了一個清晰和有條理的決策問題的定義和評估的框架，以便更好地設計和分析人類和人工智能的決策協作的實驗。

為人工智能、數據可視化、人機交互等領域的研究者提供了一個客觀和嚴謹的決策性能損失的評估和分析的方法，以便更好地識別和改善人類和人工智能的決策協作的效果和質量。他們提供了一個批判和反思的決策問題的傳達和解釋的角度，以便更好地理解和溝通人類和人工智能的決策協作的問題和挑戰。他們還提供了一個啟發和創新的決策問題的拓展和深入的方向，以便更好地探索和發現人類和人工智能的決策協作的可能性和潛力。

總結和展望

在論文提出了一個基于統計決策理論和信息經濟學的決策問題的定義，以及一個評估人類決策性能損失的框架。他們的目的是為人工智能、數據可視化、人機交互等領域的研究者提供一個清晰和有條理的指導和參考，以便更好地設計和分析人類和人工智能的決策協作的實驗。他們對近年來的相關研究進行了編碼和評估，發現只有很少一部分的研究向參與者提供了足夠的信息來識別規范的決策，而大多數的研究都存在決策問題的不明確和不完整，導致對人類決策的偏差和缺陷的結論是不可靠的。我們建議研究者在設計實驗時，要充分考慮決策理論的框架，要明確地向參與者和讀者傳達決策問題的所有必要組成部分，以便對人類決策行為進行有效的評估和改進。

作者也意識到框架和方法的局限性和未來需要進行的工作。他們的框架和方法基于期望效用理論和規范方法，這些理論和方法也存在一些挑戰和批評，例如不符合人類的實際決策行為和偏好，以及忽略了人類決策的內在價值和意義。他們的框架和方法也可能不適用于一些主觀、復雜、多目標的決策問題，也可能不能涵蓋人類和人工智能的決策協作的所有可能性和潛力。因此我們的未來工作主要是在以下幾個方面進行拓展和深入：探索其他的決策理論和方法，研究不同的信息顯示和交互方式，研究不同的激勵和反饋機制，研究不同的人工智能和人類的協作模式。(END)

參考資料：https://arxiv.org/abs/2401.15106

責任編輯：武曉燕來源：大噬元獸

AI 人工智能數據可視化

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看