成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM合集:微軟發布基于過程的自獎勵方法顯著提升數學推理性能

發布于 2025-3-7 11:20
瀏覽
0收藏

1. Process-based Self-Rewarding Language Models

LLM合集:微軟發布基于過程的自獎勵方法顯著提升數學推理性能-AI.x社區

大型語言模型在各類下游任務中表現都很不錯,現在已經在好多場景里廣泛應用了。我們通過用人類標注的偏好數據訓練語言模型,讓它性能得到了進一步提升。不過,這種性能是受限于人類能力上限的。

為了突破這個限制,有人提出了自獎勵方法,就是讓語言模型自己給自己輸出的內容獎勵,然后用這些獎勵數據來訓練。但現在已有的自獎勵方法在數學推理場景中不太好用,弄不好還會讓模型性能變差。

在本文里,我們提出了一種基于過程的自獎勵流程。這個流程有長時間思考推理、用分步式語言模型當裁判,還有分步式偏好優化這些新做法。通過這種新范式,經過一輪輪基于過程的自獎勵,語言模型在好幾個數學推理基準測試中的性能都提高了。這就表明自獎勵方法潛力巨大,有望讓語言模型的推理能力超越人類。

論文: ??https://arxiv.org/pdf/2503.03746??

2. ABC: Achieving Better Control of Multimodal Embeddings using VLMs


視覺嵌入模型在零樣本任務里,像視覺檢索和分類這些方面,效果還挺不錯。但要是碰到那種不太明確、或者需要按用戶指令來做的任務,它就不行了。這種任務得靠多模態嵌入模型,它能把視覺和自然語言輸入結合起來,輸出一種融合的嵌入。

現在那些基于 CLIP 的方法,都是把圖像和文本分開來做嵌入,完了再把結果湊一塊兒。我們發現這么搞,圖像和文本這兩種模態之間沒啥深度互動,而且用戶對最終呈現效果也不好控制。

所以我們提出了 ABC,這是個開源的多模態嵌入模型。它用視覺語言模型做主干,能把圖像特征和自然語言指令深度融合在一起。在 MSCOCO 圖像到文本檢索這個任務里,ABC 的表現那是最好的,在大規模多模態嵌入基準里的分類和 VQA 任務中,也都拔得頭籌。因為 ABC 能把視覺和語言統一起來表示,所以能用自然語言去解決那些不太好把握、可能有點模糊的視覺檢索問題。

為了看看 ABC 這方面的能力到底咋樣,我們專門設計了 CtrlBench 基準,這個基準要求把文本指令和圖像內容交叉起來,才能實現正確檢索。ABC 通過提供高質量的呈現效果,還有靈活的自然語言控制,讓多模態嵌入技術往前邁了一步。我們的模型和數據集在項目頁面就能找到。

論文: ??https://arxiv.org/pdf/2503.00329??

3. HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

LLM合集:微軟發布基于過程的自獎勵方法顯著提升數學推理性能-AI.x社區

大型語言模型(LLMs)有個毛病,老是會說些不實的話。它給出的回答里,事實和假話混在一起,這可把人難住了,想驗證這些信息、根據它們準確做決策,太不容易。

為了解決這個問題,我們提出了 Highlighted Chain-of-Thought Prompting(HoT)技術。用這技術,就要求大型語言模型給出帶 XML 標簽的回答,得把事實和查詢里給的內容對應上。簡單講,要是給它一個問題,大型語言模型先得重新整理下問題,添上 XML 標簽,把關鍵事實標出來,然后再給出回答,回答里得把輸入里提到的事實突出顯示。

有意思的是,在只給少量示例的情況下,HoT 在 17 種不同任務里,像算術、閱讀理解、邏輯推理這些,表現都比普通的鏈式思維提示(CoT)要好。讓人們去驗證大型語言模型的回答時,那些標出來的內容能幫時間緊張的人更準確、更高效地判斷模型回答得對不對。

論文: ??https://arxiv.org/pdf/2503.02003??

4. Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

LLM合集:微軟發布基于過程的自獎勵方法顯著提升數學推理性能-AI.x社區

大語言模型(LLM)對自然語言處理(NLP)來說,那改變可太大了。不過現在開源的多語言 LLM 特別少,現有的那些,在語言覆蓋范圍上都有局限。這些模型一般都更重視那些資源多的語言,像一些用得很廣泛,但相關資源不太夠的語言,常常就被忽略了。

為了補上這個短板,我們提出了 Babel,這是個開源的多語言 LLM。它涵蓋了全球使用人數最多的前 25 種語言,能服務全球 90% 以上的人,而且好多其他開源多語言 LLM 沒涉及的語言,它也包括了。和以前那種連續預訓練的方法不一樣,Babel 通過層擴展技術,增加了模型的參數數量,這樣就能把 Babel 的性能上限提高。

我們發布了兩個不同版本:Babel - 9B,設計的時候就考慮到推理和微調要高效;還有 Babel - 83B,它給開源多語言 LLM 樹立了新標桿。經過在多語言任務上的大量測試,發現 Babel 的性能比同樣規模的開源 LLM 都要好。而且,用開源的監督微調數據集,Babel 也取得了很不錯的成績。Babel - 9B - Chat 在 100 億規模的 LLM 里,排名很靠前;Babel - 83B - Chat 更是在多語言任務上做到了頂尖水平,和那些商業模型都能一較高下。

論文: ???https://arxiv.org/pdf/2503.00865??

本文轉載自??AI-PaperDaily??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线欧美一区二区 | 亚洲精品在线免费播放 | av看片| 国产精品精品视频一区二区三区 | 日本在线一二 | 自拍 亚洲 欧美 老师 丝袜 | 在线免费毛片 | 久久久久国产精品一区 | 国产一级电影在线观看 | 久久综合狠狠综合久久 | 久久精品亚洲精品国产欧美 | 成人在线视频免费看 | 一级a性色生活片久久毛片 午夜精品在线观看 | www.操com | 97久久精品午夜一区二区 | 99视频在线 | 日韩高清国产一区在线 | 国产精品女人久久久 | 久久免费精品 | 久久久久久久久久久一区二区 | 国产精品不卡视频 | 久久久国产一区 | 日韩综合 | 久久精品国产久精国产 | 国产精品欧美精品日韩精品 | 成人精品一区 | 野狼在线社区2017入口 | 亚洲国产69 | 国产精品a久久久久 | 亚洲一区在线播放 | 毛片免费在线 | 一区二区视频 | 日韩午夜一区二区三区 | 欧美一级视频在线观看 | 久草久草久草 | 日本在线视频不卡 | 亚洲一区在线日韩在线深爱 | 午夜精品一区二区三区在线 | 久久精品一级 | 中国一级大毛片 | 久久国产视频网站 |