成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型集體“掛科”!全新中文網頁檢索測試:GPT-4o準確率僅6.2%

人工智能 新聞
BrowseComp-ZH是一項由港科大(廣州)、北大、浙大、阿里、字節跳動、NIO等機構聯合發布的新基準測試集,讓20多個中外主流大模型集體“掛科”。

你以為大模型已經能輕松“上網沖浪”了?

新基準測試集BrowseComp-ZH直接打臉主流AI。

BrowseComp-ZH是一項由港科大(廣州)、北大、浙大、阿里、字節跳動、NIO等機構聯合發布的新基準測試集,讓20多個中外主流大模型集體“掛科”:

GPT-4o在測試中準確率僅6.2%;多數國產/國際模型準確率跌破10%;即便是目前表現最好的OpenAI DeepResearch,也僅得42.9%

目前,BrowseComp-ZH的全部數據已開源發布。

圖片

研究團隊直言:

圖片

為什么我們需要中文網頁能力測試?

如今的大模型越來越擅長“用工具”:能連搜索引擎、能調用插件、能“看網頁”。

但眾多評估工具都只在英文語境下建立,對中文語境、中文搜索引擎、中文平臺生態考慮甚少。

然而,中文互聯網信息碎片化嚴重、搜索入口多樣、語言表達復雜。

中文網頁世界到底有多難?舉幾個例子你就明白了:

  • 信息碎片化,分散在百度百科、微博、地方政府網站、視頻號等多平臺
  • 常見的語言結構中含有省略、典故、代指,關鍵詞檢索常常“跑偏”
  • 搜索引擎本身質量參差,信息“沉底”或“走丟”都是常事

因此,英文測試集“翻譯一下”根本不夠。

需要從中文語境原生設計,才能真正衡量大模型是否能在中文網頁上“看得懂”、“搜得到”、“推得準”。

BrowseComp-ZH是怎么煉成的?

研究團隊采用了“逆向設計法”:從一個明確、可驗證的事實答案出發(如某個畫種、機構、影視劇名),反向構造出多個約束條件的復雜問題,確保以下三點:

  • 百度/Bing/Google三大搜索引擎首屏無法直接命中答案
  • 多個主流大模型在檢索模式下也無法直接答對
  • 經過人工驗證,問題結構清晰,且僅有唯一答案

最終,他們構建了289道高難度中文多跳檢索題目,覆蓋影視、藝術、醫學、地理、歷史、科技等11大領域

圖片

圖片

大模型集體“翻車”?DeepResearch勉強破四成,絕大多數連10%都不到

在BrowseComp-ZH的測試下,多款國內外主流大模型集體“翻車”:

盡管這些模型在對話理解、生成表達方面已展現強大實力,但在面對中文互聯網的復雜檢索任務時,準確率普遍低得驚人:

  • 多數模型準確率低于10%,僅少數能突破20%
  • OpenAI DeepResearch以42.9%位列第一,仍遠未“及格”

研究者指出,這一結果說明:模型不僅需要會“查資料”,更要會“多跳推理”與“信息整合”,才能在中文互聯網中真正找到答案。

四大發現,揭示中文網頁任務的“模型死角”

1. 僅靠記憶不行,得真本事

純靠參數記憶(無搜索)的模型準確率往往低于10%,說明“硬背”不靠譜。

2. 有推理的模型,表現更好

DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%,Claude-3.7也比Claude-3.5提升了12.2%,推理能力成為關鍵變量。

3. 搜得多 ≠ 搜得準,多輪策略才是王道

具備多輪檢索能力的AI搜索產品全面勝出:

  • DeepResearch:42.9%
  • 豆包Deep Search:26.0%
  • Perplexity Research模式:22.6%

相比之下,只檢索一次的模型(如Kimi、Yuanbao)準確率低至個位數。

4. 搜索功能“翻車”?接入反而變差

最典型的反例是DeepSeek-R1,開啟搜索功能后準確率從23.2%斷崖式跌至7.6%

研究指出,模型未能將網頁檢索信息與已有知識有效融合,反而被誤導。

數據集開放!歡迎模型開發者挑戰

BrowseComp-ZH的全部數據已開源發布。

研究者希望此基準測試能成為推動LLM在中文信息環境落地的試金石,助力構建真正“會用中文上網”的智能體。

下一步,他們計劃擴充樣本規模,拓展問答形式,并深入分析模型推理路徑與失敗案例。

論文地址:https://arxiv.org/abs/2504.19314

代碼地址:https://github.com/PALIN2018/BrowseComp-ZH

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-26 08:33:00

2024-08-02 13:14:51

2024-06-18 12:54:39

2024-06-12 11:50:23

2024-06-20 10:43:15

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2024-12-06 14:19:50

2024-01-03 13:37:00

模型數據

2025-01-06 13:15:02

2024-07-16 13:24:38

2024-06-05 13:09:26

2025-01-21 08:00:00

2024-07-23 12:32:11

2025-06-04 13:53:22

代碼模型AI

2023-09-01 14:06:00

模型AI

2025-02-13 09:40:00

2025-06-03 08:22:00

模型評估視頻

2024-08-05 08:46:00

模型測評
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人av一区二区三区 | 精品国产精品三级精品av网址 | 毛片一区二区三区 | 精品一区av| 日韩中文字幕一区二区 | 精品视频久久久久久 | 午夜视频一区 | 插插插干干干 | 国产综合第一页 | 欧美精品网站 | 亚洲精彩视频在线观看 | 欧美午夜精品久久久久久浪潮 | 97色在线视频 | 黄色一级大片在线免费看产 | 成年人在线视频 | 最新午夜综合福利视频 | 欧美寡妇偷汉性猛交 | 久久国内精品 | 毛片一级电影 | 91天堂| 日韩免费视频 | 亚洲精品国产第一综合99久久 | 伊人在线视频 | 亚洲一区视频在线 | 国产综合久久 | 欧美一区在线看 | 欧美在线视频网 | 国产黄色大片在线免费观看 | 国产精品美女一区二区三区 | 国产综合精品一区二区三区 | 成人亚洲在线 | 欧美成人h版在线观看 | 国产在线精品一区二区 | 91精品久久久久久综合五月天 | 亚洲精品一区二区网址 | 久婷婷 | 91网站视频在线观看 | 日日夜夜草 | 午夜精品久久久久久久久久久久久 | 麻豆视频在线免费观看 | 欧美一区在线视频 |