成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法

發布于 2024-6-26 09:42
瀏覽
0收藏

自OpenAI的Q項目曝光后,業內相關討論始終層出不窮。 據現有信息匯總,Q項目被視作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大嘗試,有望在包括數學問題解決能力、自主學習和自我改進等多個層面對人工智能技術帶來革新性突破。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

(英偉達科學家Jim Fan、圖靈獎得主Yann LeCun等參與討論OpenAI的Q*實現方式) 圖片

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

(Meta科學家田淵棟則認為Q是Q-learning和A的結合,且天然地適合推理任務,尤其在數

學推理方面)


不過迄今為止OpenAI沒有公開關于Q算法的具體細節,其效果究竟如何我們并不得而知。 然而就在近日,一篇名為《Q: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的論文在AI圈內引發了不小的震蕩。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

論文鏈接:??https://arxiv.org/abs/2406.14283??


論文中提出的Q算法不僅能夠幫助小模型達到參數量比其大數十倍、甚至上百倍模型的推理能力,大幅提升了小模型的性能,還顯著降低了計算資源的需求。


最值得關注的是,這篇論文竟然出自中國團隊之手——由顏水成教授團隊攜手新加坡南洋理工大學團隊共同發布!


根據實驗結果,Q成功幫助現有開源模型在GSM8K、MATH和MBPP數據集上取得性能飛躍,評分分別超越了ChatGPT和Gemini Ultra。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

(Q*在AI圈內引發熱議)


百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

(外網網友直呼「中國AI趕上來了!」)


在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》論文中,研究人員首先將大語言模型的推理軌跡分解為若干個狀態。


對于每一個狀態,參考DeepCubeA中的設計,通過將定義Path Cost的g(s_t)函數和定義Accumulated Reward的Q*(s_t, a_t)集成到同一個f(s_t)函數內,實現了對歷史狀態收益和未來期望收益的綜合考慮。


最后利用A搜索算法對狀態進行最佳優先搜索,實現了對復雜推理任務的全盤規劃,從而提升開源模型在推理任務上的性能。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區


其中g(s_t)表示當前軌跡中的多個歷史狀態,既{s1,...,s_t},的聚合收益。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區


具體g(s_t)的函數形式可以通過人為定義,例如判斷當前代碼是否符合語法規則等,或者通過構建 Process Reward Model(PRM)進行監督學習得到;g(s_t)中的聚合方式可以為求和,最大值,最小值等。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

為了獲得狀態-動作對(s_t, a_t)的最優Q值以實現規劃,研究人員在當前LLM策略生成的數據上通過監督學習的方式訓練了一個代理Q值模型Q。


百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區


實驗結果表明,顏水成團隊本次所提出的Q框架,可以顯著地提升LLM的推理能力:

  • 在GSM8K數據集上,Q幫助Llama-2-7b提升至80.8%的準確率,超越了ChatGPT;
  • 在MATH數據集上,Q幫助DeepSeek-Math-7b提升至55.4%的準確率,超越了Gemini Ultra;
  • 在MBPP數據集上,Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準確率,縮小了與GPT-4的編程水平差距。

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

百倍提升7B模型推理能力!顏水成團隊攜手新加坡南洋理工大學發布Q*算法-AI.x社區

研究證明,Q能夠幫助參數量僅為7b的小模型達到參數量比其大數十倍甚至百倍模型的推理能力,大幅提升模型的性能,并顯著降低了計算資源的需求。


顏水成團隊表示,目前,Q的研究尚在初級階段,算法在各個環節還有進一步的改進空間。未來,團隊會繼續深入此項研究,不斷提升國產開源模型推理能力,打破OpenAI閉源封鎖,為人工智能前沿技術發展帶來全新可能。


本文轉自 新智元,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/5zaE62vFQg-v_gx2o6Dmdg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品久久 | av在线伊人 | japanhd成人| 欧美性生活网 | 久久久久久久久精 | 亚洲精品一区在线 | 91免费视频观看 | 欧美日韩在线免费 | 久久亚洲综合 | 国产1区2区在线观看 | 天天干视频在线 | 亚洲黄色成人网 | 日韩av成人 | 91社区在线观看 | 精品美女 | 午夜欧美| 美女视频一区 | 国产一级一级毛片 | 亚洲97 | 亚洲一区二区在线播放 | 在线色网址| 成人免费福利视频 | 久久日韩粉嫩一区二区三区 | 在线观看不卡av | 91在线精品播放 | 黄色一级网 | 午夜视频网站 | 日本一区二区三区免费观看 | 国产高清视频在线观看 | 九九在线视频 | h视频在线免费 | 免费麻豆视频 | 精品产国自在拍 | 综合一区二区三区 | 91婷婷韩国欧美一区二区 | 中国av在线免费观看 | 午夜小视频免费观看 | 五月婷婷中文 | 韩日在线 | 黄色成人免费看 | 中文字幕亚洲视频 |