成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI“短板”暴露:研究發現 GPT-4 Turbo 回答高級歷史題準確率僅 46%

人工智能
盡管人工智能(AI)在編碼等任務中表現出色,但一項最新研究發現,AI 在應對高級歷史考試時仍顯得力不從心。

1 月 20 日消息,盡管人工智能(AI)在編碼等任務中表現出色,但一項最新研究發現,AI 在應對高級歷史考試時仍顯得力不從心。

這項研究由奧地利復雜科學研究所(CSH)的團隊主導,旨在測試三大頂尖大型語言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在歷史問題上的表現。研究團隊開發了一個名為“Hist-LLM”的基準測試工具,其根據 Seshat 全球歷史數據庫來測試答案的正確性,Seshat 全球歷史數據庫是一個以古埃及智慧女神命名的龐大歷史知識數據庫。

研究結果于上月在知名 AI 會議 NeurIPS 上公布,結果顯示,即使是表現最佳的 GPT-4 Turbo 模型,其準確率也僅為 46%,并不比隨機猜測高多少。

論文合著者、倫敦大學學院計算機科學副教授 Maria del Rio-Chanona 表示:“這項研究的主要結論是,盡管 LLMs 令人印象深刻,但它們仍缺乏對高級歷史知識的深度理解。它們擅長處理基本事實,但在面對更復雜、博士級別的歷史研究時,仍無法勝任。”

IT之家注意到,研究人員分享了一些 LLMs 答錯的歷史問題示例。例如,當被問及古埃及某一特定時期是否存在鱗甲時,GPT-4 Turbo 給出了肯定的回答,但實際上,這種技術是在 1500 年后才出現在埃及的。del Rio-Chanona 解釋說,LLMs 在處理技術性歷史問題時表現不佳,可能是因為它們傾向于從非常突出的歷史數據中推斷,而難以檢索到更冷門的歷史知識。

另一個例子是,研究人員詢問 GPT-4 古埃及在某一歷史時期是否擁有職業常備軍。正確答案是否定的,但 LLM 卻錯誤地回答“有”。del Rio-Chanona 認為,這可能是因為關于其他古代帝國(如波斯)擁有常備軍的公開信息較多,而古埃及的相關信息較少。“如果你被反復告知 A 和 B,而 C 只被提到一次,當你被問及 C 時,你可能會只記得 A 和 B,并試圖從中推斷。”她解釋道。

研究還發現,OpenAI 和 Llama 模型在撒哈拉以南非洲等地區的表現更差,這表明其訓練數據可能存在偏見。研究負責人、CSH 研究員 Peter Turchin 表示,這些結果表明,在某些領域,LLMs 仍無法替代人類。

盡管如此,研究人員對 LLMs 在未來輔助歷史研究的前景仍持樂觀態度。他們正在通過納入更多來自代表性不足地區的數據和增加更復雜的問題來改進基準測試工具。論文總結道:“總體而言,盡管我們的結果突顯了 LLMs 需要改進的領域,但它們也強調了這些模型在歷史研究中的潛力。”

責任編輯:龐桂玉 來源: IT之家
相關推薦

2023-11-20 21:56:04

AI推理

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2023-09-19 09:20:16

2023-12-26 08:17:23

微軟GPT-4

2025-05-26 08:33:00

2024-05-21 12:23:17

2023-08-17 13:30:28

AI測試

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2024-01-05 08:44:52

2024-01-29 12:49:00

AI模型

2023-05-06 12:17:44

GPT-4自然語言人類語言

2023-12-17 22:04:04

微軟GPT-4

2020-11-20 17:03:11

AI 數據人工智能

2023-11-08 13:05:23

AI模型

2025-05-06 15:32:23

模型AI測試

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-11-10 09:48:34

2023-08-02 10:45:43

2023-09-19 14:56:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产91丝袜在线播放 | 欧美日韩综合一区 | 国内精品久久久久久久影视简单 | 视频在线一区二区 | 超黄毛片 | 日本精品久久久久久久 | 一区二区在线不卡 | 久久99精品久久久久久琪琪 | 成人在线观看亚洲 | 在线一区视频 | 亚洲 欧美 日韩 精品 | 精品国产青草久久久久福利 | 美女拍拍拍网站 | 国产亚洲网站 | 国产毛片久久久久久久久春天 | 99久久久久 | 国产在线观看免费 | 久久久高清| 国产高清在线观看 | 国产丝袜一区二区三区免费视频 | 91麻豆精品国产91久久久资源速度 | 久久99久久99 | 国产欧美精品一区二区三区 | 久久爆操 | 日韩一级免费观看 | 久久久久久久久久久91 | 亚洲va在线va天堂va狼色在线 | 女人精96xxx免费网站p | 亚洲视频三区 | 亚洲乱码国产乱码精品精的特点 | 成年人网站免费视频 | 久久精品国产亚洲一区二区三区 | 黄片毛片免费观看 | 成人午夜视频在线观看 | 久久久91精品国产一区二区三区 | 国产一区免费 | 欧美一区二区在线观看 | 久久精品亚洲 | 国产一区二区观看 | 午夜视频一区二区 | 国产一区视频在线 |