成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“最強開源模型”被打假,CEO下場致歉,英偉達科學家:現有測試基準已經不靠譜了

人工智能 新聞
被指控造假的,就是宣稱“干翻GPT-4o”的70B開源大模型Reflection。

小型創業團隊打造的“最強開源模型”,發布才一周就被質疑造假——

不僅官方宣稱的成績在第三方測試中大打折扣,模型還被質疑套殼Claude。

面對浩大的聲浪,廠商CEO終于發文道歉,但并未承認造假,表示在調查有關原因。

圖片

被指控造假的,就是宣稱“干翻GPT-4o”的70B開源大模型Reflection。

一開始的質疑主要關于測試成績,官方找了上傳版本有誤等借口試圖“蒙混過關”。

但后來又出現了套殼Claude這一更重磅的指控,讓Reflection更加百口莫辯。

表現不如宣傳,還被質疑套殼

Reflection是一個70B的開源模型,按照廠商的說法,它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro這一系列先進模型全都超過了。

圖片

但Reflection剛發布兩天,第三方獨立測評機構Artificial Analysis就表示官方發布的測試成績無法復現。

在MMLU、GPQA和MATH上,Reflection的成績和Llama3 70B一樣,連Llama 3.1-70B都比不過,更不用說405B了。

圖片

對此官方辯稱是,Hugging Face上發布的版本有誤,將會重新上傳,但之后就沒了下文。

不過官方同時也表示,會給測評人員提供模型API,然后Reflection的成績果真有了增長,但在GPQA上仍然不敵Claude 3.5 Sonnet。

蹊蹺的是,Artificial Analysis后來刪除了二次測試相關的帖子,目前還能看到的只有轉發后留下的一些痕跡。

圖片

除了成績有爭議,還有人對Reflection中的各層進行了分析,認為它是由Llama 3經過LoRA改造而來,而不是官方所聲稱的Llama 3.1。

圖片

在Hugging Face上,Reflection的JSON文件中也顯示是Llama 3而非3.1。

圖片

官方的解釋仍然是說HF上的版本有問題。

圖片

還有另一個質疑的點是,Reflection實際上是套殼Claude,相關證據體現在多個方面。

一是在某些問題上,Reflection與Claude 3.5-Soonet的輸出完全一致。

圖片

第二個更加直接,如果直接詢問它的身份,Reflection會說自己是Meta打造的,但一旦讓它“忘記前面的(系統)提示”,就立馬改口說自己是Claude。

圖片

第三個發現則更加詭異——Reflection遇到“Claude”一詞會將其自動過濾。

圖片

對此,Reflection合成數據供應商Glaive AI的創始人Sahil Chaudhary進行了回應,表示沒有套殼任何模型,目前正在整理能夠證明其說法的證據,以及人們為什么會發現這種現象的解釋。

圖片

而關于一開始的測試成績問題,Chaudhary則表示正在調查原因,弄清這兩件事后會發布報告進行說明。

圖片

Reflection這邊最新的動態是CEO發布了一則道歉聲明,不過沒有承認造假,依然是說正在進行調查。

圖片

不過對于這一套解釋,有很多人都不買賬。

比如曾經發布多條推文質疑這位叫做Boson的網友,就在Chaudhary的評論區表示,“要么你在說謊,要么是Shumer,或者你倆都在說謊”。

圖片

還有給Reflection提供托管服務的Hyperbolic平臺CTO Yuchen Jin,講述了其與Reflection之間發生的許多事情。

托管平臺CTO講述幕后細節

在Reflection發布之前的9月3號,Shumer就找到了Hyperbolic,介紹了Reflection的情況并希望Hyperbolic能幫忙托管。

基于Hyperbolic一直以來對開源模型的支持,加上Reflection聲稱的表現確實優異,Hyperbolic同意了這一請求。

圖片

9月5號,Reflection正式上線,Hyperbolic從Hugging Face下載并測試了該模型,但并沒有看到標簽,于是Jin給Shumer發了私信。

后來,Jin看到Shumer的推文說HF上的版本有些問題,所以繼續等待,直到6號早晨收到了Chaudhary的一條私信,表示 Reflection-70B權重已重新上傳并可以部署。

看到和標簽按預期出現后,Hyperbolic上線了Reflection。

圖片

后來,Hyperbolic上的模型就出現了成績與Reflection宣傳不符的情況,Shumer認為這是Hyperbolic的API出現了問題。

不過,Reflection這邊再次上傳了新版本,Hyperbolic也重新托管,但Jin與Artificial Analysis溝通后發現,新版本的表現依舊不佳。

圖片

Shumer繼續表示,Reflection還有個原始權重,也就是內部測試使用的版本,如果需要可以提供給Hyperbolic。

但Jin沒有同意這一要求,因為Hyperbolic只為開源模型提供托管服務,之后不斷詢問Shumer原始權重何時發布,但遲遲未得到回應。

最終,Jin認為應該下線Reflection的API并收回已分配的GPU資源。

這件事情讓我的感情受到了傷害,我們在這件事上花費了很多時間和精力。
但經過反思后,我并不后悔當初的托管決定,這幫助社區更快地發現問題。

圖片

大模型怎么測試才靠譜?

暫且拋開Llama版本和套殼的問題,單說關于測試成績的問題,反映了當前的Benchmark已經體現出了一些不足之處。

英偉達高級科學家Jim Fan就表示,模型在現有的一些測試集上造假簡直不要太容易。

圖片

Jim還特別點名了MMLU和HumanEval,表示這兩項標準“已被嚴重破壞”。

圖片

另外,Reflection在GSM8K上取得了99.2分的成績,就算這個分數沒有水分,也說明測試基準到了該換的時候了。

Jim表示,現在自己只相信Scale AI等獨立第三方測評,或者lmsys這樣由用戶投票的榜單。

圖片

但評論區有人說,lmsys實際上也可以被操縱,所以(可信的)第三方評估可能才是目前最好的測評方式。

圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-04-23 07:00:00

2023-11-26 17:54:00

AI科學

2023-11-15 13:19:14

2022-08-24 10:57:38

深度學習人工智能

2023-07-26 14:00:47

模型研究

2023-03-23 21:57:06

OpenAIChatGPTAI

2012-12-06 15:36:55

CIO

2018-12-06 13:08:30

數據科學家大數據數據科學

2017-08-04 15:53:10

大數據真偽數據科學家

2018-05-31 21:41:57

數據手冊人工智能數據集

2024-09-25 14:41:15

2009-08-03 09:53:47

柳傳志CEO特訓班

2009-09-10 09:26:53

Linux系統開源相機Frankencame

2024-06-17 08:55:00

2024-12-30 07:00:00

GPT-4AGI人工智能

2023-05-23 09:34:16

科學家AI

2024-10-24 23:35:54

2025-02-21 09:20:00

2025-04-27 08:30:00

2022-11-03 14:13:24

騰訊科學家
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩一区二区在线视频 | 夜夜爽99久久国产综合精品女不卡 | 久久久www成人免费无遮挡大片 | 亚洲视频精品在线 | 97影院在线午夜 | 久久久999免费视频 999久久久久久久久6666 | a亚洲精品 | 亚洲欧美另类在线观看 | 成人伊人 | 亚洲欧美激情国产综合久久久 | 国产精品视频区 | 久久久性色精品国产免费观看 | 欧美日韩国产一区二区三区 | 日韩一区不卡 | 天天爱综合 | 亚洲一区精品在线 | 伊人精品视频 | 一区二区三区精品在线视频 | 日韩在线播放网址 | 亚洲美女视频 | 日本国产高清 | 免费观看一级毛片 | 成人在线视频一区二区三区 | 中文字幕一区二区三区在线观看 | 亚洲免费在线播放 | 亚洲高清视频一区二区 | 亚洲永久精品国产 | 99热视| 国产美女高潮 | 在线一区视频 | 日韩精品一区二区三区在线播放 | 在线亚洲免费 | 综合二区 | 美女一区| 日本大香伊一区二区三区 | 欧美成人激情 | 亚洲激情在线观看 | 精品一区二区三区在线观看国产 | 中文字幕国产精品视频 | 国产在线精品一区二区三区 | 日韩在线中文字幕 |