成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

清華UCSD提出全新微調(diào)方法，8B小模型媲美GPT-4o！科學(xué)問題正確率提高28%

作者：新智元 2024-12-02 14:20:00

人工智能新聞

最近，一支來自UCSD和清華的研究團(tuán)隊(duì)提出了一種全新的微調(diào)方法。經(jīng)過這種微調(diào)后，一個(gè)僅80億參數(shù)的小模型，在科學(xué)問題上也能和GPT-4o一較高下！或許，單純地卷AI計(jì)算能力并不是唯一的出路。

我們都知道，在科研界，LLM在解決簡(jiǎn)單科學(xué)問題時(shí)表現(xiàn)得游刃有余，但在應(yīng)對(duì)復(fù)雜問題時(shí)往往會(huì)出現(xiàn)幻覺。于是，為了讓模型更靠譜，研究人員嘗試給模型裝上科學(xué)工具，幫助它們解決高難度任務(wù)。

然而，一旦用上工具，模型就「上癮」了！甚至連一些不怎么難的問題都要靠工具解決。這不僅讓計(jì)算成本暴漲，還影響了模型自己「獨(dú)立思考」的能力——就像有的人有了計(jì)算器就不再心算一樣。

相較而言，人類科學(xué)專家在解決科學(xué)問題時(shí)，通常會(huì)先評(píng)估問題的復(fù)雜性，再?zèng)Q定使用基本推理或?qū)I(yè)工具。

正是受這種解決問題流程的啟發(fā)，一支來自UCSD和清華的研究團(tuán)隊(duì)提出了一種全新的微調(diào)方法，讓模型「邊適應(yīng)邊學(xué)習(xí)」，學(xué)會(huì)在使用外部科學(xué)工具和依賴內(nèi)部知識(shí)之間做出合理選擇。

論文地址：https://arxiv.org/abs/2411.00412

這一方法的顯著意義在于它大大提高了模型效率。

研究人員僅使用一個(gè)擁有80億參數(shù)的LLM——遠(yuǎn)小于行業(yè)巨頭如GPT-4——便在測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)了28.18%的答案準(zhǔn)確率提升和13.89%的工具使用精度提高。

這挑戰(zhàn)了AI開發(fā)中的一個(gè)慣有想法：更大的模型必然能帶來更好的結(jié)果。

教會(huì)AI在使用外部工具和依賴內(nèi)部知識(shí)之間進(jìn)行判斷——就像訓(xùn)練一位年輕科學(xué)家如何在相信自己計(jì)算的同時(shí)知道何時(shí)咨詢專業(yè)設(shè)備——可能比單純地卷AI計(jì)算能力更為重要。

微調(diào)方法簡(jiǎn)介

微調(diào)方法由兩部分組成：World Knowledge Distillation（WKD）和Tool Usage Adaptation（TUA）。

World Knowledge Distillation可以翻譯為「世界知識(shí)蒸餾」。在WKD過程中，LLM通過學(xué)習(xí)那些借助工具生成的解答，來掌握和積累特定領(lǐng)域的知識(shí)。

WKD分為監(jiān)督微調(diào)和偏好優(yōu)化兩部分。

對(duì)于所有問題，研究人員提示LLM使用工具生成確定性的解答，然后將這些解答作為目標(biāo)，進(jìn)行監(jiān)督微調(diào)（SFT）。

在遇到開放式問題時(shí)，除了進(jìn)行監(jiān)督微調(diào)外，LLM會(huì)生成一組不同的解答提議，并使用預(yù)定義的指標(biāo)對(duì)這些提議進(jìn)行排序，以構(gòu)建偏好對(duì)；然后利用這些數(shù)據(jù)進(jìn)行偏好優(yōu)化。

而在Tool Usage Adaptation中，研究人員首先在基準(zhǔn)數(shù)據(jù)集的問題上評(píng)估經(jīng)過WKD微調(diào)后的LLM。對(duì)于每個(gè)問題，他們采樣生成一組直接回答，以計(jì)算其準(zhǔn)確率。

基于預(yù)設(shè)的準(zhǔn)確率閾值，他們將問題分為兩個(gè)子集：簡(jiǎn)單問題集，即LLM可以直接解決的問題；以及復(fù)雜問題集，即LLM需要借助工具回答的問題。

對(duì)于簡(jiǎn)單問題集，保持與WKD一致的對(duì)齊目標(biāo)，即繼續(xù)通過內(nèi)化已有知識(shí)直接作答；而對(duì)于復(fù)雜問題集，研究人員將對(duì)齊目標(biāo)切換為包含工具使用軌跡的增強(qiáng)解答，并訓(xùn)練LLM準(zhǔn)確地遵循這些軌跡。

實(shí)驗(yàn)過程

研究人員使用Llama-3.1-8B-Instruct作為微調(diào)方案的基礎(chǔ)模型。同時(shí)還對(duì)其他最先進(jìn)的開源和閉源模型進(jìn)行了廣泛評(píng)估，包括GPT-4o、GPT-4o mini、Claude 3.5 Sonnet和Llama-3.1-70B-Instruct。

數(shù)據(jù)集

研究人員使用了兩個(gè)現(xiàn)有的公開數(shù)據(jù)集MATH和SciBench，并構(gòu)建了四個(gè)新的科學(xué)數(shù)據(jù)集用于實(shí)驗(yàn)：Mujoco、偏微分方程（PDEs）、氣候科學(xué)和流行病學(xué)。

四個(gè)數(shù)據(jù)集的構(gòu)建遵循系統(tǒng)化流程：首先，基于專家咨詢和模擬器功能設(shè)計(jì)了特定領(lǐng)域的問題模板；接著，通過在科學(xué)合理的參數(shù)范圍內(nèi)進(jìn)行采樣，生成單獨(dú)的問題；最后，利用LLMs和工具使用軌跡生成相應(yīng)的解答。

Mujoco中主要涉及剛體和柔體動(dòng)力學(xué)相關(guān)問題。

在偏微分方程（PDEs）中，研究人員設(shè)計(jì)了內(nèi)部的數(shù)值求解器，并編制了關(guān)于熱傳遞、化學(xué)工程、人口模擬等領(lǐng)域的問題。

氣候科學(xué)問題數(shù)據(jù)集則以神經(jīng)代理模型為中心。該模型接受時(shí)間、氣候情景（如SSP126、SSP245）、溫室氣體排放（CO?，CH?）和氣溶膠氣體（BC，SO?）等輸入，輸出相應(yīng)的地表溫度。

流行病學(xué)問題數(shù)據(jù)集使用了最先進(jìn)的代理模型。模型輸入包括每個(gè)加利福尼亞州縣的28天多維特征以及24維的州級(jí)初始條件，用于描述流行病狀態(tài)。模型輸出未來28天的流行病狀態(tài)預(yù)測(cè)。

四個(gè)自定義數(shù)據(jù)集主要由多項(xiàng)選擇題構(gòu)成，而其中的氣候科學(xué)數(shù)據(jù)集還包含開放式問題（例如關(guān)于氣候變化緩解的政策建議）。公開的MATH和SciBench數(shù)據(jù)集則完全由數(shù)值問題組成。

外部科學(xué)工具

研究人員為不同數(shù)據(jù)集使用了不同的工具。

對(duì)于Mujoco數(shù)據(jù)集，他們使用了官方API；

對(duì)于PDEs數(shù)據(jù)集，他們利用了內(nèi)部的數(shù)值求解器；

對(duì)于氣候和流行病學(xué)數(shù)據(jù)集，他們使用了封裝對(duì)應(yīng)神經(jīng)代理模型的API；

對(duì)于開放式數(shù)據(jù)集，他們采用了Python代碼解釋器。

評(píng)估指標(biāo)

實(shí)驗(yàn)主要評(píng)估了兩種準(zhǔn)確率：答案準(zhǔn)確率和工具使用準(zhǔn)確率。

答案準(zhǔn)確率

答案準(zhǔn)確率量化了模型提供的正確答案比例。

對(duì)于自定義數(shù)據(jù)集中的多項(xiàng)選擇題（MCQs），研究人員根據(jù)模型是否選擇正確選項(xiàng)來分配二進(jìn)制分?jǐn)?shù)。

對(duì)于MATH和SciBench數(shù)據(jù)集中的數(shù)值答案，如果答案在真實(shí)值的±5%的容差范圍內(nèi)，則視為正確答案。

工具使用準(zhǔn)確率

工具使用準(zhǔn)確率評(píng)估模型是否能在工具使用方面做出智能決策，即在回答較難問題時(shí)使用工具，而在回答較簡(jiǎn)單問題時(shí)直接作答。

問題根據(jù)訓(xùn)練模型是否可通過Pn（無工具使用）回答來劃分為簡(jiǎn)單（E）或困難（H）。當(dāng)使用允許工具選擇的Pi時(shí)，決策進(jìn)一步標(biāo)記為T（使用工具）或N（不使用工具）。例如，HT表示模型在處理一個(gè)困難問題時(shí)選擇使用工具。

工具使用準(zhǔn)確率定義為：

實(shí)驗(yàn)結(jié)果

答案準(zhǔn)確率

該微調(diào)方法在自定義數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于所有基準(zhǔn)模型，這些數(shù)據(jù)集通常未在預(yù)訓(xùn)練中涵蓋。

盡管在公開數(shù)據(jù)集上，微調(diào)過的模型并未超越當(dāng)前的最先進(jìn)模型，但相比于未微調(diào)的基礎(chǔ)模型，該方法顯示出顯著的改進(jìn)。這一在公開基準(zhǔn)測(cè)試上的性能差距，可能是由于當(dāng)前最先進(jìn)模型具有更多的參數(shù)量，并對(duì)開源數(shù)據(jù)集進(jìn)行了特定優(yōu)化。

工具使用準(zhǔn)確率

總體而言，訓(xùn)練模型在所有數(shù)據(jù)集上均實(shí)現(xiàn)了最佳的工具使用準(zhǔn)確率，除了在SciBench數(shù)據(jù)集上排名第二。

相比之下，其他模型的準(zhǔn)確率大約為50%，表明兩種典型情況：要么過度依賴工具，要么從不嘗試使用工具。

除了表中展示的優(yōu)勢(shì)外，研究人員還進(jìn)一步分析了MATH數(shù)據(jù)集上的工具使用決策情況，該數(shù)據(jù)集在下圖中根據(jù)問題難度提供了先驗(yàn)標(biāo)簽。

訓(xùn)練模型在問題難度增加時(shí)顯示出合理的工具使用增長(zhǎng)。基礎(chǔ)模型則無論問題難度如何均表現(xiàn)出對(duì)工具的過度依賴；而Claude 3.5在面對(duì)簡(jiǎn)單和困難問題時(shí)均表現(xiàn)出更多的直接回答信心，可能是因?yàn)镸ATH是一個(gè)公開數(shù)據(jù)集，該模型在訓(xùn)練期間已接觸到類似問題。

作者介紹

Bohan Lyu

Bohan Lyu目前在清華大學(xué)修讀計(jì)算機(jī)科學(xué)與經(jīng)濟(jì)學(xué)雙學(xué)位。

2023年，他加入清華NLP實(shí)驗(yàn)室，受劉知遠(yuǎn)教授的指導(dǎo)。

2024年夏天，他前往加州大學(xué)圣地亞哥分校（UCSD）的計(jì)算機(jī)科學(xué)與工程系Rose-STL實(shí)驗(yàn)室，導(dǎo)師是Rose Yu教授。本研究部分工作在他訪問UCSD期間完成。

他的研究興趣是設(shè)計(jì)創(chuàng)新的計(jì)算機(jī)科學(xué)方法，特別是專注于語言技術(shù)、知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘，以解決現(xiàn)實(shí)世界的挑戰(zhàn)。

此前，他曾擔(dān)任過ICLR 2024、ICML 2024和ACL 2024研討會(huì)的審稿人。

Yadi Cao

Yadi Cao在加州大學(xué)圣地亞哥分校（UCSD）計(jì)算機(jī)科學(xué)與工程系擔(dān)任博士后研究員，導(dǎo)師是Rose Yu教授。

此前，他在加州大學(xué)洛杉磯分校（UCLA）獲得了計(jì)算機(jī)科學(xué)博士學(xué)位，導(dǎo)師是Chenfanfu Jiang教授和Demetri Terzopoulos教授。

他的博士研究主要集中在偏微分方程（PDE）的數(shù)值解和機(jī)器學(xué)習(xí)方法，特別是在計(jì)算固體和流體動(dòng)力學(xué)方面。

責(zé)任編輯：張燕妮來源：新智元

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：亚洲欧美一区二区三区在线 | 国产欧美久久一区二区三区 | 人人看人人搞 | 久精品久久 | 成人区一区二区三区 | 日韩在线中文字幕 | 免费观看一级黄色录像 | 国产成人综合久久 | 涩涩视频网站在线观看 | 男人的天堂亚洲 | 91精品国产91久久久久久密臀 | 精品久久久久久久久久久久久久 | 国产一级片av| 欧美成人精品二区三区99精品 | 国产精品国色综合久久 | 欧美福利视频 | 国产成人精品一区二区三区视频 | 欧美一区二区三区在线观看 | 久久久精品一区 | 黄色一级大片在线免费看产 | 一级片网站视频 | 久久久久久久久99 | 在线播放国产一区二区三区 | 九九九视频在线观看 | 精品视频在线观看 | 国产成人99久久亚洲综合精品 | www.日本国产 | 精品中文在线 | 美国黄色毛片 | 中文字幕一区二区三区在线观看 | 欧美日韩视频一区二区 | 蜜桃在线一区二区三区 | 日本视频免费观看 | 自拍视频在线观看 | 黄色一级免费观看 | 午夜精品久久久久久不卡欧美一级 | 国产精品久久一区 | 午夜小电影 | 免费成人高清 | 国产综合视频 | 亚洲免费大片 |