成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

考那么多試,拿那么高分,大模型們真的懂語言了嗎?

開發 開發工具 機器學習
GPT-3 這樣在大量網絡文本上訓練的模型真的超越了 Watson 嗎?它真的理解它生成的語言和推理嗎?這是 AI 研究界存在明顯分歧的話題。

十年前,IBM 的 Watson 獲得了答題節目《Jeopardy!》的冠軍,當時 IBM 宣稱:「Watson 能夠理解自然語言的所有歧義和復雜性?!谷欢缥覀兯吹降?,Watson 隨后在試圖「用人工智能徹底改變醫學」的過程中失敗了,智能體所具備的語言能力與實際理解人類語言并不能完全劃等號。

[[441624]]

自然語言理解一直是人工智能研究的主要目標之一。起初,研究人員試圖手動編程,讓機器理解新聞故事、小說或人類可能創作的任何其他內容。結果就像 Watson 一樣,這種方法是徒勞的,人們不可能歸納出理解文本所需的所有事實、規則和假設。

近年來一種 AI 領域建立起一種新的范式:我們不建立顯性知識,而是讓機器學習自己理解語言——攝取大量書面文本并學習預測單詞。這種新范式現在被稱作語言模型,GPT-3 等基于大型神經網絡的模型可以生成令人難以置信的人類散文和詩歌,并且能夠執行復雜的語言推理。

但是 GPT-3 這樣在大量網絡文本上訓練的模型真的超越了 Watson 嗎?它真的理解它生成的語言和推理嗎?這是 AI 研究界存在明顯分歧的話題。

此類討論曾經是哲學的范疇,但在過去十年中,人工智能已經從學術泡沫中迸發出來,進入了現實世界,它們對現實世界缺乏了解可能會產生非常嚴重的后果。一項研究發現 IBM 的 Watson 曾提出了「不安全和不正確的治療建議」。另一項研究表明:谷歌的機器翻譯系統在為非英語患者翻譯醫療說明時出現了重大錯誤。

那么我們如何確定機器是否可以理解現實?1950 年,計算機科學先驅艾倫 · 圖靈試圖用「圖靈測試」來回答這個問題。然而,圖靈低估了人類被機器愚弄的可能。早在上世紀 60 年代,Joseph Weizenbaum 就構建了一個簡單的聊天機器人 Eliza,試圖通過解釋句子讓 Eliza 模仿心理治療師講話。結果發現 Eliza 會讓人們相信他們正在與理解自己的人交談,即使他們知道和自己對話的是一臺機器。

在 2012 年的一篇論文中,計算機科學家 Hector Levesque、Ernest Davis 和 Leora Morgenstern 提出了一個更客觀的測試——Winograd 模式挑戰。這種測試方法已被 AI 語言社區采用,是當前評估機器理解的最佳方式之一。

Winograd 模式挑戰中包含一對句子,兩個句子僅相差一個詞,每個句子后面跟一個問題,例如:

Sentence 1: I poured water from the bottle into the cup until it was full.

Question: What was full, the bottle or the cup?

Sentence 2: I poured water from the bottle into the cup until it was empty.

Question: What was empty, the bottle or the cup?

 

Sentence 1: Joe’s uncle can still beat him at tennis, even though he is 30 years older.

Question: Who is older, Joe or Joe’s uncle?

Sentence 2: Joe’s uncle can still beat him at tennis, even though he is 30 years younger.

Question: Who is younger, Joe or Joe’s uncle?

Winograd 模式在 2016 年被用作一場比賽的主題,其中獲勝程序僅在 58% 的句子上給出了正確答案,這幾乎和簡單猜測的準確率差不多。句子中一個詞的差異可以改變代詞所指的人或事,正確回答這些問題需要常識性的理解。Winograd 模式正是為了測試這種理解而設計的,減輕了圖靈測試對人類判斷和聊天機器人技巧的不可靠性。特別是,Winograd 的作者設計了數百個被稱為「Google-proof」的模式:機器不應該使用谷歌搜索(或類似搜索)來正確回答問題。

然而,大型神經網絡語言模型的出現讓人工智能程序解決 Winograd 模式的能力迅速提高。OpenAI 2020 年的一篇論文稱 GPT-3 在 Winograd 模式基準集中近 90% 的句子上都是正確的。在專門針對這些任務進行訓練后,語言模型的表現甚至會更好。一些神經網絡在特定任務上甚至能達到 97% 的準確率,這種準確性和人類的表現已經大致相當。這是否意味著神經網絡語言模型已經達到了人類的理解水平?

并非如此。盡管創作者盡了最大努力,但 Winograd 模式實際上并沒有完全經過「Google-proof」。Winograd 模式中的挑戰就和許多其他 AI 語言理解測試一樣,有時允許使用快捷方式 ,讓神經網絡在不理解的情況下也能表現良好。例如:

  • 跑車超過了郵車因為它開得更快。
  • 跑車超過了郵車因為它開得更慢。

在龐大的語料庫上訓練的語言模型將吸收「跑車」和「快」之間以及「郵車」和「慢」之間的相關性,因此語言模型可以僅根據這些相關性來正確回答這些問題,而不存在真正的理解。事實證明,SuperGLUE 比賽中的許多 Winograd 模式都可以使用這類統計相關性。

艾倫人工智能研究所的一組研究人員嘗試解決 Winograd 模式的一些問題。2019 年,他們創建了一個更龐大的 Winograd 模式——WinoGrande。

WinoGrande 包含多達 44000 個句子,而不是數百個示例。這些句子是借助 Amazon Mechanical Turk 平臺獲得的,由真人編寫——每人被要求寫幾個句子對,這些句子包含多個主題,但每對句子可能相差不止一個單詞。

然后,研究人員通過用相對簡單的 AI 方法測試每個句子,將太容易解決的句子丟棄,以消除可能允許統計相關性捷徑的句子。與研究人員預期的一樣,與原始的 Winograd 模式相比,剩余的句子對機器提出了更困難的挑戰,在 Winograd 模式上與人類表現相當的神經網絡語言模型在 WinoGrande 集合上得分要低得多。

然而,另一個驚喜很快接踵而至。在 WinoGrande 集合問世之后的兩年里,神經網絡語言模型變得越來越大。而且,模型越大,它們在這項新挑戰上的得分似乎就越高。在本文撰寫之時,當前最好的模型(在幾 TB 的數據和數千個 WinoGrande 實例上訓練)已經達到了接近 90% 的準確率(人類是 94%)。這種性能的增益幾乎全部來自于神經網絡語言模型規模的增大和訓練數據體量的增加。

這些大模型真的獲得了像人類一樣的常識理解能力嗎?看起來并沒有。WinoGrande 反映出的結果有幾點需要注意。例如,由于那些句子依賴于 Amazon Mechanical Turk 平臺上的兼職人員,句子的質量和流暢度是非常不均衡的。同時,用來剔除「non-Google-proof」句子的 AI 方法可能過于簡單,無法發現一個龐大的神經網絡可能使用的所有統計捷徑。而且,該方法只適用于單個的句子,很多句子最后都會失去自己的「雙胞胎」兄弟姐妹。一項后續研究表明,神經網絡語言模型只在兩個「雙胞」句子上進行測試,而且兩個測試都要正確,它們比人類的準確率要低得多,這表明早前 90% 的結果沒那么重要。

那么,從 Winograd 的失敗中我們能得出什么教訓呢?那就是:我們通常很難根據 AI 系統在某項特定挑戰中的表現來判斷它們是否真的理解了自己所處理的語言。我們知道,神經網絡經常會使用統計方面的捷徑來獲取高分,而不是真正像人類一樣去理解。

在我看來,問題的關鍵在于,理解語言就需要理解世界,而只接觸語言的機器就無法獲取這種理解能力。舉個例子,「跑車超過了郵車,因為它開得慢一些」,理解這句話需要什么前提?首先,你要知道跑車和郵車分別是什么、車是可以互相「超過」的,甚至你還要知道更基本的常識:交通工具是存在于這個世界并與之交互的對象,由人類根據自己的行程驅動。

以上這些都是我們人類認為理所當然的知識,但這些知識并沒有內嵌在機器中,也不可能被明確地寫在任何語言模型的訓練文本中。一些認知科學家認為,在學習和理解語言方面,人類依賴于先天的、前語言的關于時空以及世界上其他基本屬性的核心知識。如果我們想讓機器像人類一樣掌握語言,我們首先需要賦予它們人類與生俱來的原始原則(primordial principle)。要評估機器的理解能力,我們應該首先評估它們對上述原則的掌握程度,有人將其稱為「嬰兒形而上學(infant metaphysics)」。

與 GPT-3 等成就輝煌的 AI 系統相比,訓練并評估一個嬰兒水平的機器看起來似乎倒退了一大步。但如果目標是真實可信的理解,那這可能是唯一一條讓機器理解「它」是什么以及獲取理解「它」所需要的一切的途徑。

原文鏈接:https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】  

戳這里,看該作者更多好文 

 

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2020-03-31 10:58:38

2010-01-15 16:45:35

C++語言

2010-01-26 09:24:53

C++語言

2019-12-18 15:11:42

數組集合數據

2015-09-29 10:12:10

2013-06-17 10:45:34

2020-07-13 08:40:21

BAT模具設計

2017-01-21 14:57:43

Linuxsystemd

2018-03-27 08:46:01

數據庫NoSQLredis

2017-09-07 16:32:05

華為

2023-01-24 16:13:22

編程語言JavaIT

2020-08-26 17:03:52

同型號顯卡產品

2010-03-02 10:26:32

Android系統平臺

2010-02-07 13:45:12

Android操作系統

2019-10-08 14:40:53

Java線程

2020-04-24 08:15:51

代碼 if else數組

2019-12-02 14:22:01

浪費云計算支出

2011-12-31 14:47:10

Web App

2021-02-21 08:48:19

技術升職程序員

2024-03-18 10:24:12

優化模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品一区二区电影 | 欧美精品二区 | 成人不卡 | 毛片一区二区三区 | 国产精品伦一区二区三级视频 | 欧美一区日韩一区 | 亚洲一区在线日韩在线深爱 | 成人免费视频网址 | 欧美成人手机在线 | 天天操网 | 激情六月丁香婷婷 | 国产人成精品一区二区三 | 欧美日韩中文字幕在线 | 一级欧美一级日韩片免费观看 | 粉嫩粉嫩芽的虎白女18在线视频 | 日韩在线中文字幕 | 国产精品永久免费视频 | 免费成人在线网站 | 黄色成人在线网站 | aaaaaaa片毛片免费观看 | 黄色av网站在线观看 | 亚洲精品乱码久久久久久9色 | 欧美午夜久久 | 免费激情| 久久国产区 | 在线只有精品 | 久久看看 | 亚洲人人 | 一级毛片中国 | 欧美久久久久久 | 精品中文字幕一区 | 18gay男同69亚洲网站 | 亚洲人人| 欧美黄色性生活视频 | 羞羞视频免费在线观看 | 久久成人国产 | 日韩免费网站 | 国产电影一区二区在线观看 | 国产乱码精品一区二区三区五月婷 | 国产三区精品 | 日韩黄色小视频 |