成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

通義實(shí)驗(yàn)室新研究:大模型自己「扮演」搜索引擎,提升推理能力無(wú)需搜索API

人工智能 新聞
來(lái)自阿里通義實(shí)驗(yàn)室的解決方案公開(kāi)了:開(kāi)源ZeroSearch,提供了一種無(wú)需與真實(shí)搜索引擎交互的強(qiáng)化學(xué)習(xí)框架。

強(qiáng)化學(xué)習(xí)(RL)+真實(shí)搜索引擎,可以有效提升大模型檢索-推理能力。

但問(wèn)題來(lái)了:

一方面,搜索引擎返回的文檔質(zhì)量難以預(yù)測(cè),給訓(xùn)練過(guò)程帶來(lái)了噪音和不穩(wěn)定性。

另一方面,RL訓(xùn)練需要頻繁部署,會(huì)產(chǎn)生大量API開(kāi)銷(xiāo),嚴(yán)重限制可擴(kuò)展性。

現(xiàn)在,來(lái)自阿里通義實(shí)驗(yàn)室的解決方案公開(kāi)了:開(kāi)源ZeroSearch,提供了一種無(wú)需與真實(shí)搜索引擎交互的強(qiáng)化學(xué)習(xí)框架。

實(shí)驗(yàn)表明,ZeroSearch僅需3B參數(shù)的LLM作為檢索模塊,即可有效提升搜索能力,節(jié)省了高昂API成本。

圖片

ZeroSearch讓LLM“自給自足”實(shí)現(xiàn)搜索進(jìn)化

研究團(tuán)隊(duì)用模擬搜索環(huán)境+漸進(jìn)式抗噪訓(xùn)練,讓LLM不再依賴昂貴搜索引擎API。

圖片

輕量微調(diào):把LLM變成“搜索引擎模擬器”

用少量標(biāo)注數(shù)據(jù)微調(diào)LLM,使其能按指令生成兩種文檔——有用結(jié)果噪聲干擾

圖片

通過(guò)收集與真實(shí)搜索引擎交互的數(shù)據(jù),ZeroSearch對(duì)LLM進(jìn)行輕量級(jí)監(jiān)督微調(diào)。

在這個(gè)過(guò)程中,模型學(xué)會(huì)生成與真實(shí)搜索引擎風(fēng)格相似的文檔,同時(shí)能夠根據(jù)提示詞生成相關(guān)或噪聲文檔。

這種能力使得模型在訓(xùn)練過(guò)程中能夠動(dòng)態(tài)調(diào)整文檔質(zhì)量,從而更好地模擬真實(shí)檢索場(chǎng)景。

課程化抗噪訓(xùn)練:像打游戲升級(jí)一樣練模型

訓(xùn)練初期返回高質(zhì)文檔,后期逐漸混入噪聲(噪聲比例按指數(shù)曲線上升)。

ZeroSearch引入了課程式學(xué)習(xí)機(jī)制,逐步降低生成文檔的質(zhì)量,使模型從簡(jiǎn)單的檢索場(chǎng)景逐步過(guò)渡到更具挑戰(zhàn)性的任務(wù)。

這種策略不僅提升了模型的推理能力,還顯著增強(qiáng)了訓(xùn)練的穩(wěn)定性和效果。

圖片

圖片

隨著訓(xùn)練的進(jìn)行,模型逐漸適應(yīng)更復(fù)雜的檢索任務(wù),最終能夠在高質(zhì)量和低質(zhì)量文檔中找到平衡。

強(qiáng)化學(xué)習(xí)閉環(huán):自產(chǎn)自銷(xiāo)的搜索生態(tài)

ZeroSearch通過(guò)模擬搜索引擎,完全消除了與真實(shí)搜索引擎交互的API費(fèi)用,使得大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練變得更加經(jīng)濟(jì)可行。

并且,ZeroSearch兼容多種強(qiáng)化學(xué)習(xí)算法,包括PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)。

這些算法為模型提供了不同的優(yōu)化策略,使得ZeroSearch能夠在不同的模型和任務(wù)中表現(xiàn)出色。

實(shí)驗(yàn)表明,GRPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)更好,而PPO則在某些任務(wù)中提供了更高的靈活性。

實(shí)驗(yàn)結(jié)果及結(jié)論

ZeroSearch的零API成本優(yōu)勢(shì)不僅體現(xiàn)在經(jīng)濟(jì)上,還體現(xiàn)在訓(xùn)練的靈活性和可擴(kuò)展性上。

ZeroSearch vs. 現(xiàn)有方法

圖片

在圖中,我們可以清晰地看到ZeroSearch在多個(gè)問(wèn)答數(shù)據(jù)集上的表現(xiàn)。

無(wú)論是單跳(Single-Hop)還是多跳(Multi-Hop)問(wèn)答任務(wù),ZeroSearch都顯著優(yōu)于現(xiàn)有的基線方法,包括直接提示、RAG和Search-R1等。

這表明ZeroSearch不僅在簡(jiǎn)單任務(wù)中表現(xiàn)出色,還能在復(fù)雜的多跳問(wèn)答任務(wù)中發(fā)揮強(qiáng)大的檢索能力。

圖片

上圖展示了ZeroSearch和Search-R1(使用真實(shí)搜索引擎)在LLaMA-3.2-3B模型上的獎(jiǎng)勵(lì)曲線對(duì)比。

ZeroSearch的學(xué)習(xí)曲線更加平滑且最終性能優(yōu)于Search-R1,表明其在訓(xùn)練過(guò)程中的穩(wěn)定性和優(yōu)越性。

不同模型規(guī)模的性能

圖片

可以看到使用7B參數(shù)的檢索模塊就能達(dá)到與谷歌搜索相當(dāng)的性能,而14B參數(shù)的檢索模塊甚至能夠超越谷歌搜索

這表明ZeroSearch不僅適用于小型模型,還能在大型模型中發(fā)揮更大的潛力,為L(zhǎng)LM的檢索能力提升提供了廣闊的空間。

強(qiáng)化學(xué)習(xí)算法的兼容性

圖片

比較了在Qwen-2.5-3B和LLaMA-3.2-3B模型上,使用PPO和GRPO算法的ZeroSearch性能,可以看到ZeroSearch與PPO和GRPO兩種強(qiáng)化學(xué)習(xí)算法的兼容性。

實(shí)驗(yàn)結(jié)果表明,GRPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)更好,而PPO則在某些任務(wù)中提供了更高的靈活性。

這表明ZeroSearch能夠適應(yīng)不同的強(qiáng)化學(xué)習(xí)算法,為研究人員提供了更多的選擇。

通過(guò)模擬搜索引擎,ZeroSearch完全消除了API成本,同時(shí)通過(guò)課程式學(xué)習(xí)策略逐步提升模型的推理能力。

論文第一作者孫浩目前是北京大學(xué)智能學(xué)院四年級(jí)博士研究生,研究方向聚焦于檢索增強(qiáng)的大語(yǔ)言模型與智能體,師從張巖教授。

論文鏈接:https://arxiv.org/abs/2505.04588

項(xiàng)目主頁(yè): https://alibaba-nlp.github.io/ZeroSearch

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-02-28 01:00:00

2011-06-20 18:23:06

SEO

2025-05-09 08:31:11

2019-10-31 08:55:07

搜索引擎工具

2023-04-10 08:00:00

2009-09-22 16:23:52

搜索引擎

2013-10-21 17:42:39

百會(huì)搜索贏家

2020-03-20 10:14:49

搜索引擎倒排索引

2011-05-10 15:00:45

SEO

2017-08-07 08:15:31

搜索引擎倒排

2009-02-19 09:41:36

搜索引擎搜狐百度

2010-04-20 11:43:46

2022-10-08 09:13:18

搜索引擎?站

2012-09-07 13:22:21

搜索搜狗

2013-01-07 10:32:46

平板搜索引擎機(jī)遇

2009-09-21 16:59:04

搜索引擎

2024-08-20 14:52:12

2009-12-10 15:09:46

PHP搜索引擎類(lèi)

2023-09-21 15:05:12

ChatGPT搜索引擎

2016-12-26 13:41:19

大數(shù)據(jù)搜索引擎工作原理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产一级片免费看 | 91亚洲国产成人久久精品网站 | 午夜天堂精品久久久久 | 亚卅毛片 | 成人国产在线视频 | 毛片黄片免费看 | 国产精品二区三区在线观看 | 亚洲国产精品一区二区三区 | 欧美特级黄色 | 男女羞羞视频在线免费观看 | 久久99蜜桃综合影院免费观看 | 亚洲高清在线观看 | 日韩av电影在线观看 | 成人免费在线小视频 | 国产一区视频在线 | 亚洲伊人久久综合 | 久久久精彩视频 | 国户精品久久久久久久久久久不卡 | 国产精品久久久久影院色老大 | 久久亚洲国产精品日日av夜夜 | 亚洲精品播放 | av大片| 一区二区三区四区不卡 | 久久精品亚洲精品国产欧美kt∨ | 免费一级片 | 一区二区三区欧美在线观看 | 精品视频一区二区 | 色狠狠一区 | 91网视频| 热re99久久精品国产99热 | 日本特黄a级高清免费大片 国产精品久久性 | 中文字幕免费在线观看 | 午夜影院在线观看 | 亚洲黄色成人网 | 欧美日韩一区二区在线观看 | 欧美成人二区 | 色婷婷国产精品综合在线观看 | 亚洲日本中文 | 中文日韩在线视频 | 亚洲欧美精品国产一级在线 | 在线免费观看视频你懂的 |