成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源大模型新王干翻GPT-4o,新技術可糾正自己幻覺,數學99.2分刷爆測試集

人工智能
Reflection 70B能力提升的關鍵,是采用了一種名為Reflection-Tuning的訓練方法,它能夠讓模型反思自己生成的文本,在最終確定回應前檢測并糾正自身推理中的錯誤。

開源大模型王座突然易主,居然來自一家小創業團隊,瞬間引爆業界。

新模型名為Reflection 70B,使用一種全新訓練技術,讓AI學會在推理過程中糾正自己的錯誤和幻覺。

圖片

比如最近流行的數r測試中,一開始它犯了和大多數模型一樣的錯誤,但主動在<反思>標簽中糾正了自己。

圖片

在官方評測中,70B模型全面超越最強開源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特別是數學基準GSM8K上直接刷爆,得分99.2%

這個結果也讓OpenAI科學家、德撲AI之父Noam Brown激情開麥:

GSM8K得分99%!是不是可以正式淘汰這個基準了?

圖片

模型剛剛上線網友就把試玩擠爆了,對此Meta還主動支援了更多算力。

圖片
圖片

在網友測試中,Reflection 70B能回答對GSM8K數據集中本身答案錯誤的問題:

我向模型提供了GSM8K中存在的5個“ground_truth”本身就不正確的問題。

模型沒有重復數據集中的錯誤答案,而是全部回答對了,這很令人印象深刻,表明那99.2%的準確率并非來自于記憶測試集

圖片

數各種r都不在話下,連生造詞“drirrrngrrrrrnnn”中有幾個r也能被正確數對。

圖片

網友紛紛對小團隊做出的開源超越頂流閉源感到驚訝,現在最強開源模型可以在本地運行了。

圖片

關鍵70B還只是個開始,官方表示下周還會發布更大的Reflection 405B

預計405B性能將大幅優于Sonnet和GPT-4o。

圖片

Reflection 70B權重已公開,API訪問將于今天晚些時候由Hyperbolic Labs提供。

模型能自我反思糾正錯誤

目前關于Reflection 70B的更多細節如下。

Reflection 70B能力提升的關鍵,是采用了一種名為Reflection-Tuning的訓練方法,它能夠讓模型反思自己生成的文本,在最終確定回應前檢測并糾正自身推理中的錯誤。

圖片

訓練中的數據來自使用GlaiveAI平臺生成的合成數據。

圖片

Reflection 70B基于Llama 3.1 70B Instruct,可以使用與其它Llama模型相同的代碼、pipeline等從Reflection Llama-3.1 70B進行采樣。

它甚至使用了標準的Llama 3.1聊天格式。

不過,Reflection 70B引入了一些特殊tokens,結構化輸出過程。

圖片

如下面這個例子所展示的,規劃過程分為一個獨立的步驟,這樣做可以提高CoT效果,并保持輸出精煉:

圖片

模型將從在<thinking>和</thinking>標簽內輸出推理開始,一旦對其推理感到滿意,就會在<output>和</output>標簽內輸出最終答案。

所以它能夠將其內部思考和推理與最終答案分離。

在<thinking>部分,模型可能會輸出一個或多個<reflection>標簽,這表明模型發現了其推理中的錯誤,并將在提供最終答案之前嘗試糾正該錯誤。

系統提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.
(你是一個世界級人工智能系統,能夠進行復雜的推理和反思。在標簽內對查詢進行推理,然后在標簽內提供你的最終回應。如果你發現自己在任何時候推理出錯,請在標簽內糾正自己。)

圖片

此外值得一提的是,基準測試中,所有基準都已通過LMSys的LLM Decontaminator檢查污染,隔離了<output>部分,并單獨對這一部分進行測試。

使用Reflection 70B的時候,官方還分享了小tips:

  • 初步建議參數temperature為.7 , top_p為.95
  • 為提高準確性,最好附加“Think carefully.”在Prompt末尾

官方還表示,下周會發布一份報告,詳細介紹模型訓練過程和發現。

Agent創業團隊打造

Reflection 70B的背后是一支小團隊,由HyperWriteAI的CEO Mutt Shumer帶領。

圖片

領英顯示,Mutt Shumer是一位連續創業者,畢業于美國錫拉丘茲大學,現任OthersideAI的聯合創始人兼CEO。

圖片

OthersideAI是一家AI應用公司,致力于通過大規模AI系統開發全球最先進的自動補全工具,也是HyperWrite的幕后公司。

HyperWrite是一個瀏覽器操作agent,可以像人一樣操作谷歌瀏覽器來完成一系列任務,比如訂披薩:

圖片

和gpt-llm-trainer一樣,你只需要用文字描述目標,它就會一邊列步驟,一邊執行。

剛推出時號稱“比AutoGPT強”。

圖片

HyperWrite還可以在谷歌擴展程序中安裝。

另外,Mutt Shumer高中時期就創立了Visos,致力于開發用于醫療用途的下一代虛擬現實軟件。

還創立了FURI,這是一家旨在通過創造高性能產品并以公平的價格銷售它們來顛覆體育用品行業的公司。

圖片

雖然有Meta支持,但目前打開試玩,還是:暫時無法訪問。

圖片

感興趣的童鞋可以先碼住了~

https://reflection-playground-production.up.railway.app/ 

參考鏈接:
[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-05-15 17:34:15

2024-09-06 13:00:29

2024-10-17 13:30:00

2024-02-07 12:39:00

AI數據

2024-10-17 14:05:34

2024-12-27 10:27:58

2024-08-09 12:50:02

2024-06-21 09:58:38

2024-12-18 13:24:30

谷歌AI大語言模型

2024-09-02 08:30:00

大模型AI

2024-08-14 12:54:46

2024-12-19 09:00:00

模型數學訓練

2024-06-05 13:09:26

2025-05-26 08:33:00

2024-05-14 11:29:15

2025-04-08 02:26:00

2024-09-14 09:31:00

2024-06-27 12:45:30

2024-12-13 14:03:44

模型訓練AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 美女在线国产 | 91网站视频在线观看 | 中文成人无字幕乱码精品 | 欧美一级免费 | 日韩精品免费视频 | 羞羞视频网站 | 欧美亚洲国产一区二区三区 | 精品二区视频 | 国产精品激情在线 | 九九精品在线 | 久久久tv| 天天操欧美 | 视频国产一区 | 黄在线 | 日韩欧美亚洲 | 色综合成人网 | 国产一区二区三区 | 韩国成人在线视频 | 二区久久| 日韩在线免费播放 | 成人网在线 | 国产免费一区二区 | 国产精品一二三区在线观看 | 成人3d动漫一区二区三区91 | 又爽又黄axxx片免费观看 | 欧美性猛片aaaaaaa做受 | 亚洲狠狠爱 | 欧美精品一区二区三区蜜桃视频 | 国产视频久久久 | 亚洲一二三区精品 | 91久久| 久久精品中文字幕 | 国产欧美一区二区三区日本久久久 | 黄色国产| 国内精品久久精品 | 人人鲁人人莫人人爱精品 | 干狠狠| 国产亚洲欧美在线视频 | 美女一区二区在线观看 | 国产亚洲精品美女久久久久久久久久 | 激情婷婷 |