MIT 團(tuán)隊(duì)的新測(cè)試，將 AI 推理與人類思維進(jìn)行比較

作者：人工智能學(xué)家 2022-05-09 11:23:43

隨著機(jī)器學(xué)習(xí)越來越多地在現(xiàn)實(shí)世界中得到應(yīng)用，了解它如何得出結(jié)論以及它是否正確變得至關(guān)重要。

人工智能獲得洞察力和做出決策的方式通常是神秘的，這引發(fā)了人們對(duì)機(jī)器學(xué)習(xí)的可信度的擔(dān)憂。現(xiàn)在，在一項(xiàng)新研究中，研究人員揭示了一種新方法，用于比較人工智能軟件的推理與人類推理的匹配程度，以便快速分析其行為。

隨著機(jī)器學(xué)習(xí)越來越多地在現(xiàn)實(shí)世界中得到應(yīng)用，了解它如何得出結(jié)論以及它是否正確變得至關(guān)重要。例如，人工智能程序可能似乎準(zhǔn)確地預(yù)測(cè)了皮膚病變是癌性的，但它可能是通過關(guān)注臨床圖像背景中不相關(guān)的印跡來做到這一點(diǎn)的。

「眾所周知，機(jī)器學(xué)習(xí)模型難以理解。」麻省理工學(xué)院計(jì)算機(jī)科學(xué)研究人員、一項(xiàng)關(guān)于人工智能可信度的新研究的主要作者 Angie Boggust 說，「知道一個(gè)模型的決定很容易，但知道這個(gè)模型為什么做出這個(gè)決定卻很難。」

文獻(xiàn)鏈接：http://shared-interest.csail.mit.edu/

理解 AI 推理的一種常見策略是檢查程序所關(guān)注的數(shù)據(jù)的特征——比如圖像或句子——以便做出決定。然而，這種所謂的顯著性方法通常一次只能對(duì)一個(gè)決策產(chǎn)生見解，并且必須手動(dòng)檢查每個(gè)決策。人工智能軟件通常使用數(shù)百萬個(gè)數(shù)據(jù)實(shí)例進(jìn)行訓(xùn)練，這使得人們幾乎不可能分析足夠多的決策來識(shí)別正確或不正確行為的模式。

「為人類用戶提供工具來詢問和理解他們的機(jī)器學(xué)習(xí)模型，對(duì)于確保機(jī)器學(xué)習(xí)模型可以安全地部署在現(xiàn)實(shí)世界中至關(guān)重要。」——Angie Boggust

現(xiàn)在，麻省理工學(xué)院和 IBM 研究院的科學(xué)家們創(chuàng)造了一種方法來收集和檢查人工智能對(duì)其決策的解釋，從而可以快速分析其行為。這項(xiàng)名為「共享興趣」的新技術(shù)將人工智能決策的顯著性分析與人工注釋的數(shù)據(jù)庫進(jìn)行比較。

例如，圖像識(shí)別程序可能會(huì)將圖片分類為狗的圖片，而顯著性方法可能會(huì)顯示程序突出顯示狗的頭部和身體的像素以做出決定。相比之下，共享興趣方法可能會(huì)將這些顯著性方法的結(jié)果與圖像數(shù)據(jù)庫進(jìn)行比較，在圖像數(shù)據(jù)庫中，人們注釋了圖片的哪些部分是狗的部分。

基于這些比較，共享興趣方法然后要求計(jì)算人工智能的決策與人類推理的一致性，將其歸類為八種模式之一。一方面，人工智能可能被證明是完全符合人類思維的，程序做出正確的預(yù)測(cè)并突出數(shù)據(jù)中與人類相同的特征。另一方面，人工智能完全分心，人工智能做出了錯(cuò)誤的預(yù)測(cè)，并且沒有突出人類所做的任何特征。

人工智能決策可能落入的其他模式，突出了機(jī)器學(xué)習(xí)模型正確或錯(cuò)誤地解釋數(shù)據(jù)細(xì)節(jié)的方式。例如，共同的興趣可能會(huì)發(fā)現(xiàn)，人工智能只根據(jù)拖拉機(jī)的一部分（比如輪胎）就可以正確識(shí)別圖像中的拖拉機(jī)，而不是像人類一樣識(shí)別整個(gè)車輛，或者發(fā)現(xiàn)人工智能可能只在圖片中也有摩托雪橇的情況下才能識(shí)別圖像中的摩托雪橇頭盔。

在實(shí)驗(yàn)中，共同興趣有助于揭示人工智能程序是如何工作的，以及它們是否可靠。例如，Shared Interest 幫助皮膚科醫(yī)生從皮膚損傷的照片中快速查看程序?qū)Π┌Y診斷的正確和錯(cuò)誤預(yù)測(cè)示例。最終，皮膚科醫(yī)生決定他不能相信這個(gè)程序，因?yàn)樗鶕?jù)不相關(guān)的細(xì)節(jié)而不是實(shí)際的病變做出了太多的預(yù)測(cè)。

在另一個(gè)實(shí)驗(yàn)中，一位機(jī)器學(xué)習(xí)研究人員使用 Shared Interest 來測(cè)試他應(yīng)用于 BeerAdvocate 數(shù)據(jù)集的顯著性方法，幫助他在傳統(tǒng)手動(dòng)方法所需時(shí)間的一小部分內(nèi)分析數(shù)千個(gè)正確和錯(cuò)誤的決策。共同興趣有助于表明顯著性方法通常表現(xiàn)良好，但也揭示了以前未知的缺陷，例如高估評(píng)論中的某些單詞導(dǎo)致錯(cuò)誤預(yù)測(cè)。

「為人類用戶提供工具來詢問和理解他們的機(jī)器學(xué)習(xí)模型對(duì)于確保機(jī)器學(xué)習(xí)模型可以安全地部署在現(xiàn)實(shí)世界中至關(guān)重要。」Boggust 說。

研究人員警告說，共享興趣的表現(xiàn)與其采用的顯著性方法一樣好。Boggust 指出，每種顯著性方法都有其自身的局限性，Shared Interest 繼承了這些局限性。

未來，科學(xué)家們希望將共享興趣應(yīng)用于更多類型的數(shù)據(jù)，例如醫(yī)療記錄中使用的表格數(shù)據(jù)。Boggust 補(bǔ)充說，另一個(gè)潛在的研究領(lǐng)域可能是自動(dòng)估計(jì) AI 結(jié)果中的不確定性。

科學(xué)家們已經(jīng)公開了共享興趣的源代碼。

源代碼：https://github.com/mitvis/shared-interest

相關(guān)報(bào)道：https://spectrum.ieee.org/-2657216063

責(zé)任編輯：張燕妮來源：人工智能學(xué)家

人工智能機(jī)器學(xué)習(xí)推理

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MIT 團(tuán)隊(duì)的新測(cè)試，將 AI 推理與人類思維進(jìn)行比較