國外Java工程師力證:GPT-4不能解決邏輯謎題,但確實具備推理能力
GPT-4或LLM有推理能力嗎?這是個存在已久的爭議性問題。
有人認為LLM只是通過大量的文本訓練得到了一種普適的近似檢索,并不具備真正的推理能力。
但也有大量的論文研究宣稱LLM在多項推理任務中表現(xiàn)優(yōu)異。
現(xiàn)在,來自IMG Arena的高級軟件工程師 Johan LAJILI在自己的博客中發(fā)表了文章,堅定地支持LLM具有「智能」、「推理」以及「邏輯」的能力。
并且,面對現(xiàn)有的諸多對LLM推理能力的質疑,Johan也給出了相當詳細的解釋。
博客地址:https://lajili.com/posts/post-3/
那么,就讓我們來看看,Johan是如何證明LLM是具備推理能力的。
LLM只是一個「字詞接龍」?
「LLM只是一個預測下一個單詞的模型」,這是反對LLM具有推理能力的主要觀點。
這個觀點通常來自于那些精通技術或人工智能的人,實際上,這個說法也是正確的。
在進行工作時,GPT-4每次只能預測一個單詞(或者更具體地說是一個token)。用戶給它一個提示或一段需要填充的文本時,它就會使用其神經網絡找到最可能跟在后面的單詞。
但是,將LLM的算法與智能手機鍵盤上的單詞建議算法相提并論是相當短視的。
事實上,為了能夠準確預測具有意義的句子,GPT-4必須具備一種表示概念的內部方式,例如「對象」、「時間」、「家庭」以及其他一切的可以被表述的存在。
這不僅是找到一個與前一個詞有關聯(lián)的詞語,LLM還需理解這些詞語的含義,才能準確地回復用戶提出的問題。
而LLM對概念的理解是通過大規(guī)模訓練建立起來的。
通過這個過程,可以證實LLM具有對「概念」的概念,即它們可以對物理世界中的事物以及它們之間的相互作用進行表示。
這意味著GPT-4不僅可以預測下一個詞語,還可以理解更高層次的語義概念,使其能夠生成連貫且有意義的文本。
但只能夠理解「概念」還不足以進行推理,因為推理還要求能夠組合不同的概念去解決問題。
LLM無法解答X謎題與邏輯問題
隨著人工智能技術的進步,傳統(tǒng)的圖靈測試,即讓人類分辨與自己對話的是不是人工智能,在ChatGPT出世后失去了效用。
現(xiàn)在的圖靈測試變得更加復雜。
同時,一些聲稱能夠檢測出內容是否由人工智能生成的公司也陸陸續(xù)續(xù)出現(xiàn),但這些嘗試基本上都失敗了。
此外,對于人工智能生成的內容,連專業(yè)的語言學家都有一半的概率都無法區(qū)分辨認。
這些嘗試檢測人工智能生成內容的失敗恰恰證明了我們不再區(qū)分人與人工智能二者生成的內容。
現(xiàn)在對人工智能生成內容進行區(qū)分時,通常是通過一些明顯的跡象,比如句子中出現(xiàn)的「根據我在2021年9月之前的訓練...」此類表述。
但這對人工智能是不公平的。
如果我們唯一能用來識別它的是其自身的一些寫作習慣,那么我們顯然已經到了一個承認它的寫作技巧與人類相似的階段。
回到LLM能否推理和邏輯謎題的問題上。
Jeremy Howard在他的演講中很好地解釋了LLM如何進行推理。
通常,一個優(yōu)秀的、系統(tǒng)的Prompt會對GPT-4的結果產生巨大影響。
如果用戶能夠詳細說明問題背景和邏輯步驟,GPT-4通常可以解決這些謎題。
如微軟亞洲研究院、北大、北航等機構的研究人員,通過97個回合的「蘇格拉底式」嚴格推理,成功讓GPT-4得出了「P≠NP」的結論。
論文地址:https://arxiv.org/abs/2309.05689
與人類不同,GPT-4沒有思維和口頭語言之間的區(qū)分。
對于人類來說,在不思考或下意識的情況下解決問題時,意味著問題非常簡單,這本質上是憑記憶回答的。
如在計算2x8時,我們會非常迅速地得出答案是16,此時我們的大腦沒有經過任何思考。
但如果是解決一個復雜的數學問題,或猜一個謎語,一個編程問題,我們在回答問題前就得在腦海中思考一番了。
而這,就是推理。
更復雜的問題可能需要我們首先考慮如何解決它,然后再嘗試解答。
在這方面,GPT-4與人類沒有區(qū)別。
但GPT-4的思考過程作為回應的一部分是可以被看到的。
也許未來的GPT-5將有一個「思考」部分的響應,但不會默認顯示出來。
在GPT-4能否具有推理能力這一點上,實際上只涉及成本以及效率的問題。
就像在估算餐廳的餐費或進行稅務申報時不會有相同程度的雙重檢查一樣,讓GPT-4對用戶提出的每個問題都進行一番詳細的論證是非常低效的。
LLM的幻覺和意識
關于LLM的另一個經典問題是這些模型存在著偏見和幻覺等問題。
這的確是一個棘手的難題,但這不代表LLM不能進行推理。
舉個例子,人無法避免偏見。有些人會意識到這一點,而另一些人可能從未思考過這個問題。
在近代以前,人們還堅信地球是宇宙的中心,認為空氣就是「無」。
但我們可以因此下定論說近代以前的人都沒有推理能力嗎?
同樣地,模型會出錯也不意味著模型不會推理。
因為正確或者持續(xù)正確并不是推理的定義,而是全知的定義。
但關于GPT-4是否存在意識,我的回答是沒有。
意識的存在是非常哲學性的問題,一定程度上也取決于個人的看法。
但我認為意識是在很長一段時間內產生的,并需要一個「自我」來照顧。
每當用戶打開GPT-4,選擇在一個聊天框開始對話時,這實際上是在創(chuàng)造一個全新的存在。
對話結束后,這個存在要么被刪除。要么保持在靜態(tài)狀態(tài)。
缺乏長期記憶,缺乏情感,不能自發(fā)地對外部刺激做出反應,都是阻礙意識產生的限制因素。
但我們也可以樂觀地相信這些問題會在未來被解決。
也許,現(xiàn)在就有一群聰明人正在研究這些問題。
而GPT-4是否存在意識,只是關于「意識」這個謎題的一小部分。