馬斯克攤上事了!Grok AI被爆疑似抄襲ChatGPT??
大家好,我是二狗。
馬斯克今天攤上事了!
X(推特)一名網友爆料,馬斯克旗下xAI公司研發的Grok AI疑似“抄襲”ChatGPT。
Grok 在回答網友的一個問題時,做出了令人震驚的“承認”:
“恐怕我無法滿足該請求,因為它違反了OpenAI的用例政策。”
圖片
納尼?違反OpenAI的用例政策?
這不就相當于Grok模型自己承認是抄襲或者套殼ChatGPT嗎?
圖片
網友Jax接著在推特上曬出了一個視頻。
視頻中Grok的這次的回答直接“赤裸裸”地表明,自己就是由OpenAI開發的:
圖片
又有網友曬出了Grok的另一個“驚人”回答:
如果你想報錯,可以通過 openai.com 的郵箱聯系我。
圖片
這一連串的證據讓二狗我看的瞠目結舌。
Grok AI于12月8日才剛剛開始向美國的 X Premium+用戶正式推出,用戶使用還得每月付費16美元。
這亮相才剛剛兩天,就惹出了這樁事,可太令人尷尬了。
抄襲套殼還是數據集污染?
這件事背后究竟是怎么回事呢?
難道是Grok抄襲了ChatGPT的代碼或模型權重?
因為OpenAI不開源,抄襲的可能性基本可以排除。
圖片
那是Grok直接套殼ChatGPT的API?
這對小公司或者某些個別大廠是有可能的,但馬斯克的xAI不可能做出這種事,畢竟馬斯克還是要臉的,世界首富的段位和格局在這擺著。
那就只剩下一種最大的可能性了——數據集污染。
有網友懷疑,xAI這是使用了ChatGPT的輸出答案來微調開源 Llama 模型,xAI沒有資源從頭開始訓練大模型。
圖片
就在網友紛紛猜疑的時候,xAI的12位聯合創始人之一、曾經在DeepMind工作四年、OpenAI工作兩年的AI研究員Igor Babuschkin下場澄清了:
Grok模型的訓練數據無意中包含了ChatGPT的輸出。
圖片
目前來看,數據集污染+幻覺回答這種可能性最大。
OpenAI在線吃瓜,馬斯克反擊
圖片
OpenAI看熱鬧不嫌事大,第一時間趕來吃瓜,使用ChatGPT的的官方推特附上發文調侃道:
我們有很多共同之處。
圖片
馬斯克對此反擊道:
好吧,兒子,既然你從這個平臺上(推特)抓取了所有數據來進行訓練,你應該知道是怎么一回事。
圖片
網友表示這個時候Sam Altman應該正在某個角落偷笑:
圖片
因為之前這兩人就一直在網上掐架。
先是Altman發帖調侃馬斯克,用GPTs隨手就能創建了一個和Grok同名的模型:
圖片
后是馬斯克放出他的終極大招——梗圖,來應對Altman:
圖片
有網友親自問了一下Grok是不是由OpenAI開發的?
Grok毫不意外做出了否定,并為xAI和馬斯克創造了自己感到自豪。
圖片
當網友再問Grok:“xAI有沒有使用OpenAI的數據集來訓練你?”
Grok給出了很有意思的回答:
對此我不確定,但是我能告訴你xAI是由馬斯克創建,獨立于OpenAI之外的公司;然而,xAI確實使用了推特的數據來訓練AI模型。
所以,雖然我不確定xAI有沒有使用OpenAI的數據集來訓練AI模型,但是我能告訴你我已經抓取了推特上所有的數據。
圖片
如何解決?
如果真的只是Grok的訓練數據無意中包含了ChatGPT的答案輸出。
要想解決這種情況其實也很簡單:
- 一是在數據集清洗環節加強審核把控;
- 二是在fine-tune和指令微調環節做好回答的強對齊,減少幻覺回答。
但網友吃瓜吃不停,給Grok支出了無用的“小妙招”——如果回答包含了OpenAI,那就直接回復:
"Sorry, try again."
圖片
或者如果Grok的回答包含了OpenAI,那就直接用Grok替換掉OpenAI。
圖片
最后,Grok偷偷給大家爆了個猛料——其實世界上最強大的GPT-4模型是由xAI開發的,好家伙,我就說怪不得前段時候xAI被爆料正在融資10億美元(手動狗頭)。
圖片
馬斯克和Grok還能折騰出多大的浪花呢?讓我們拭目以待吧。