成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

連GPT-4都考不及格,17個大模型悉數落敗,因果推理太難了

人工智能 新聞
大模型的涌現能力經得起推敲嗎?

自 ChatGPT 發布以來,大模型的涌現能力一直被人們稱贊,包括強大的語言理解能力、生成能力、邏輯推理能力等。然而,最近一項研究表明,大模型在因果推理方面普遍性能很差,連 GPT-4 都不及格。

這項研究是由來自馬克斯?普朗克研究所、蘇黎世聯邦理工學院(ETH)、密歇根大學、香港大學和 Meta AI 的研究者們共同完成的。研究目標就是探究大型語言模型(LLM)是否能根據相關性進行因果推理。

圖片

論文地址:https://arxiv.org/abs/2306.05836

因果推理是一項重要的推理任務,獲得因果關系主要有兩種基本方式:一種是通過經驗知識,例如,我們根據常識知道為朋友準備生日禮物會讓他們開心;另一種是通過一些程序和規則進行純粹的因果推理(Spirtes et al., 2000; Pearl, 2009; Peters et al., 2017)。

如下圖 1 所示:如果 A 與 B 相關,那并不意味著 A 導致 B;如果 A 和 B 本來是相互獨立的,但在給定 C 的情況下變得相關,那么可以推斷,在這個封閉系統中,C 是 A 和 B 的共同效應(common effect)。

圖片

該研究提出一項新的 NLP 任務 —— 相關因果推理 (CORR2CAUSE)。如果 LLM 的成功來源于捕捉項與項之間大量的統計相關性,那么在關鍵步驟缺失時,如何處理相關性并推理因果關系?因此,該研究認為 CORR2CAUSE 推理是大型語言模型 (LLM) 的一項必備技能。

構建數據集

首先,該研究收集整理了一個 CORR2CAUSE 數據集,用于測試大型語言模型純粹的因果推理能力。該數據集中的所有問題都圍繞 LLM 何時從相關性推斷出因果關系的有無。為了系統地形成 CORR2CAUSE 數據集,該研究將泛化過程置于因果發現的正式框架中(Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019),其中涵蓋如何根據變量在觀測數據中的統計相關性推斷變量之間因果關系的規則。

圖片

CORR2CAUSE 數據集包含 400K 個樣本,有效樣本占 18.57%,當且僅當統計相關性和潛在因果關系之間存在雙射映射時,才將相關性 - 因果關系陳述對標記為有效。

圖片

基于 CORR2CAUSE 數據集,該研究主要分析兩個問題:

  • 現有的 LLM 在此任務上表現如何? 
  • 現有的 LLM 是否可以針對此任務進行重新訓練或重新定位并獲得強大的因果推理技能?

該研究通過實驗表明,現有 17 個 LLM 在這個純因果推理任務上表現均不佳。并且,盡管 LLM 在對數據進行微調后可以表現出更好的性能,但其因果推理技能并不穩健。

實驗結果

現有 LLM 的 CORR2CAUSE 能力

如下表 4 所示,對于實驗中所有 LLM 來說,純因果推理都是一項非常具有挑戰性的任務。其中,BART MNLI 的 F1 值最高,為 33.38%,甚至高于 GPT-4(29.08%)。值得注意的是,許多模型的表現比隨機猜測還要差,這意味著它們在純因果推理任務中完全失敗。

圖片

微調后的性能

接下來要解決的問題是:能否讓 LLM 重新學習這項任務?

從下表 5 (a) 中的實驗結果來看,在 CORR2CAUSE 上進行微調的 12 個模型表現得比較好,大多數模型都獲得了顯著的性能提升。其中,基于 BERT 的 NLI 模型微調之后表現最佳,RoBERTa-Large MNLI 在這個任務上達到了 94.74% 的 F1 分數,以及非常高的精確度、召回率和準確率得分。

圖片

同時,上圖 5 (b) 展示了受到干擾時各模型的實驗結果,所有模型的性能都在急劇下降,表現最好的模型 RoBERTa-Large MNLI 則是性能下降最多的模型;然而,RoBERTa-Large MNLI 對變量重構最穩健,保持了 67.87 的較高 F1 分數。總的來說,現有 LLM 的穩健性比較差。

除了上述整體結果,該研究還進行了細粒度分析,以探索最強模型 RoBERTa-Large MNLI 在六種因果關系類型上的表現。

如下表 6 (a) 所示,RoBERTa-Large MNLI 模型在判斷關系方面表現非常好,例如「Is-Parent」、「Is-Descendant」和「Has-Confounder」,這些 F1 分數都超過了 96%。然而,在「Has-Collider」關系上,它的表現稍微弱一些。這可能是因為 collider 關系是最特殊的類型,需要基于僅有的兩個變量的無條件獨立性和在有共同后代的條件下的相關性來識別 V-structure。

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究細節。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-05 09:57:11

2024-01-26 15:25:27

GPT-4人工智能大模型

2025-05-30 09:17:00

2011-12-14 20:23:31

HTC

2024-07-16 13:24:38

2024-07-16 13:13:26

2023-05-15 15:38:59

AI模型

2025-05-23 08:47:00

2025-04-18 09:13:00

2023-06-19 08:19:50

2024-06-11 14:30:18

2023-11-13 19:35:12

訓練數據

2010-04-20 21:48:48

2025-04-16 09:35:03

2023-06-05 12:32:48

模型論文

2023-12-26 08:17:23

微軟GPT-4

2024-01-15 00:19:24

2023-11-03 13:07:00

AI模型

2023-12-04 12:56:08

AI數據

2024-06-24 17:45:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久9视频 | 免费看一区二区三区 | 日韩黄 | 福利精品在线观看 | 久久久久久91 | 三级欧美 | 日本高清中文字幕 | 午夜影晥 | 黄色成人av | 久久精品视频免费观看 | 中文字幕亚洲国产 | 欧美色视频免费 | 日本韩国欧美在线观看 | 成年人视频在线免费观看 | 手机av网| 日韩在线视频一区 | 欧美一区二区三区国产 | 精品国产乱码久久久久久中文 | 青春草在线 | 91在线免费观看网站 | 99视频网站| 亚洲成av片人久久久 | 在线观看精品 | 亚洲欧洲日韩精品 中文字幕 | 国产成人99久久亚洲综合精品 | 久久69精品久久久久久久电影好 | 黄色一级片视频 | 国产精品国产馆在线真实露脸 | 日日欧美| 日韩欧美二区 | av一二三区| 亚洲视频在线观看 | 国产一区二区三区四 | 成人亚洲视频 | www.性色 | 久久久国产一区二区三区四区小说 | 黄色毛片免费 | 中文字幕亚洲一区二区三区 | 久久精品亚洲精品国产欧美 | 亚州精品天堂中文字幕 | 国产精品综合网 |