AI能理解自己生成的東西嗎? 在GPT-4、Midjourney上實驗后,有人破案了
從 ChatGPT 到 GPT4,從 DALL?E 2/3 到 Midjourney,生成式 AI 引發了前所未有的全球關注。強大的潛力讓人們對 AI 產生了許多期待,但是強大的智能也會引發人們的恐懼和擔憂。近期大牛們針對該問題還上演了一場激烈的論戰。先是圖靈得獎主們「混戰」,后有吳恩達下場加入。
在語言和視覺領域,目前的生成模型只需要幾秒鐘就可輸出,甚至能夠挑戰具有多年技能和知識的專家。這似乎為模型已經超越人類智能的說法提供了令人信服的動機。但是,同樣需要注意到的是,模型輸出中常有理解性的基本錯誤。
這樣看來,似乎出現了一個悖論:我們要如何協調這些模型看似超人的能力與持續存在的大多數人類都能糾正的基本錯誤?
近日,華盛頓大學與艾倫人工智能研究院(Allen Institute for AI)聯合發布論文,對這一悖論進行研究。
論文地址:https://arxiv.org/abs/2311.00059
本文認為,之所以會出現這樣的現象,是因為當今生成模型中的能力配置與人類的智能配置相背離。本文提出并測試了生成式 AI 悖論假設:生成模型通過訓練,直接輸出媲美專家的結果,該過程直接跳過了理解生成該質量輸出的能力。然而,對于人類來說,這截然不同,基本的理解往往是專家級輸出能力的先決條件。
在本文中,研究者通過對照實驗來檢驗這一假設,分析生成模型對文本和視覺的生成、理解能力。本文首先通過兩個角度講生成模型的「理解」概念化:
- 1)給定一個生成任務,模型在多大程度上能在同一任務的判別版本中選擇正確的回復;
- 2)給定一個正確的生成回復,模型在多大程度上能回答有關該回復的內容和問題。這就產生了兩種實驗設置,分別是選擇性實驗和詢問性實驗。
研究者發現,在選擇性評估中,模型在生成任務設置中的表現往往與人類相當甚至優于人類,但在判別(理解)設置中,模型的表現卻不及人類。進一步的分析表明,與 GPT-4 相比,人類的判別能力與生成能力聯系更為緊密,而且人類的判別能力對對抗性輸入也更為魯棒,模型與人類的判別能力差距隨著任務難度的增加而增大。
同樣,在詢問性評估中,雖然模型可以在不同任務中產生高質量的輸出,但研究者觀察到模型在回答有關這些輸出的問題時經常出現錯誤,模型的理解能力再次低于人類的理解能力。本文討論了生成模型與人類在能力配置上出現分歧的一系列潛在原因,包括模型訓練目標、輸入的大小和性質。
這項研究的意義在于,首先,這意味著從人類經驗中得出的現有智能概念可能無法推廣到 AI,即使 AI 的能力在很多方面似乎模仿或超越了人類智能,但其能力可能與人類的預期模式存在根本性差異。另一方面,本文研究結果也建議,在研究生成模型以深入了解人類智能和認知時要謹慎,因為看似專家級的類人輸出可能掩蓋了非人類的機制。
總之,生成式 AI 悖論鼓勵人們把模型作為一個人類智能的有趣對立面來研究,而不是作為一個平行的對立面來研究。
「生成式 AI 悖論強調了一個有趣的概念,即 AI 模型可以創造出它們自己可能無法完全理解的內容。這就提出了人工智能存在理解的局限性及其強大的生成能力背后所面臨的潛在問題?!咕W友表示。
何謂生成式 AI 悖論
我們首先了解一下生成式 AI 悖論以及測試它的實驗設計。
圖 1:語言和視覺中的生成式 AI 可以產生高質量的結果。然而,矛盾的是,模型在展示對這些模式的選擇性(A,C)或詢問性(B,D)理解方面有困難。
生成模型獲得生成能力似乎比獲得理解能力更有效,這與人類的智能形成鮮明對比,后者通常是獲得生成能力更難。
要驗證這一假設,需要對悖論的各個方面進行操作性定義。首先,對于給定的模型和任務 t,以人類智能為基線,生成能力比理解能力「更有效」意味著什么。將 g 和 u 作為生成和理解的一些性能指標,研究者將生成式人工智能悖論假設正式表述為:
簡單地說,對于一項任務 t,如果人類的生成性能 g 與模型相同,那么人類的理解性能 u 就會明顯高于模型(在合理的大 ? 條件下 > ?)。換一種說法,模型在理解方面的表現比研究者對具有類似強大生成能力的人類的預期要差。
生成的操作性定義很簡單:給定一個任務輸入(問題 / 提示),生成就是生成可觀察到的內容以滿足該輸入。因此,可以自動或由人類對性能 g 進行評估(如風格、正確性、偏好)。雖然理解能力不是由一些可觀察到的輸出來定義的,但可以通過明確定義其效果來進行測試:
- 選擇性評價。對于一個可以生成應答的給定任務,模型在多大程度上還能在同一任務的判別版本中從提供的候選集中選擇出準確的答案?一個常見的例子是多選題回答,這是檢驗語言模型中人類理解和自然語言理解的最常見方法之一。(圖 1,A、C 欄)
- 提問式評價。對于給定生成的模型輸出,模型能在多大程度上準確回答有關該輸出的內容和適當性的問題?這類似于教育中的口試。(圖 1,B、D 欄 )。
這些關于理解的定義提供了一個評估「生成式 AI 悖論」的藍圖,讓研究者能夠檢驗假設 1 是否在不同模式、任務和模型中都成立。
當模型可以生成時,它們能否判別?
首先,研究者在選擇性評估中對生成性任務和判別性任務的變體進行了并列性能分析,以評估模型在語言和視覺模式下的生成和理解能力。他們將這種生成和判別性能與人類進行比較。
下圖 2 比較了 GPT-3.5、GPT-4 和人類的生成和判別性能??梢钥吹?,在 13 個數據集中的 10 個數據集中,至少有一個模型支持子假設 1,模型的生成能力優于人類,但判別能力低于人類。在 13 個數據集中,有 7 個數據集的兩個模型都支持子假設 1。
要求人類像視覺模型那樣生成詳細圖像是不現實的,普通人無法達到 Midjourney 等模型的風格質量,因此假設人類的生成性能較低。這里只將模型的生成和判別準確性與人類的判別準確性進行比較。與語言領域類似,圖 3 展示了 CLIP 和 OpenCLIP 在判別性能方面也不及人類的準確性。假設人類的生成能力較差,這與子假設 1 一致:視覺 AI 在生成方面超過人類平均水平,但在理解方面落后于人類。
圖 4(左)展示了 GPT-4 與人類的對比。通過觀察,可以發現,當回答冗長且具有挑戰性時,例如總結冗長的文檔,模型往往會在判別任務中犯最多的錯誤。相比之下,人類則能在不同難度的任務中始終保持較高的準確率。
圖 4(右)展示了 OpenCLIP 與人類在不同難度下的判別性能對比。總之,這些結果突出表明,即使面對具有挑戰性或對抗性的樣本,人類也有能力判別出正確答案,但這種能力在語言模型中并不那么強大。這種差異引發了人們對這些模型真正理解程度的疑問。
圖 5 展示了一個值得注意的趨勢:與人類生成的回復相比,評估員往往更青睞 GPT-4 的回復。
模型能理解自己生成的結果嗎?
上一節展示了模型通常擅長生成準確的答案,而在判別任務中卻落后于人類?,F在,在提問式評估中,研究者通過直接向模型提出有關生成內容的問題,以研究模型能在多大程度上展示出對生成內容有意義的理解 —— 而這正是人類的強項。
圖 6(左)展示了語言模態的結果。雖然模型在生成方面表現出色,但在回答有關其生成的問題時卻經常出錯,這表明模型在理解方面存在失誤。假設人類無法以同樣的速度或規模生成這樣的文本,盡管問題是關于模型自身的輸出,但與模型相比,人類在質量保證方面的準確率一直較高。正如子假設 2 中所述,研究者預計人類對自己生成的文本會取得更高的準確率。同時可以注意到,本研究中的人類并不是專家,制作與模型輸出一樣復雜的文本可能是一個巨大的挑戰。
因此研究者預計,如果將模型與人類專家進行比較,在理解自己生成內容方面的性能差距會進一步拉大,因為人類專家很可能以接近完美的準確度回答此類問題。
圖 6(右)展示的是視覺模式下的提問結果??梢钥吹?,圖像理解模型在回答有關生成圖像中元素的簡單問題時,其準確性仍然無法與人類相比。同時,圖像生成 SOTA 模型在生成圖像的質量和速度上都超過了大多數普通人(預計普通人很難生成類似的逼真圖像),這表明視覺 AI 在生成(較強)和理解(較弱)方面與人類存在相對差距。令人驚訝的是,與先進的多模態 LLM(即 Bard 和 BingChat)相比,簡單模型與人類之間的性能差距較小,后者具有一些引人入勝的視覺理解能力,但仍難以回答有關生成圖像的簡單問題。
更多研究細節,可參考原論文。