整理丨諾亞
出品 | 51CTO技術棧(微信號:blog51cto)
馬斯克旗下AI公司xAI推出的首款聊天機器人Grok號稱“百無禁忌”,也正是這個無禁忌AI面世不久,就給馬斯克捅了個大簍子!
一名安全測試員 Jax Winterbourne 上個月在推特上發布了一張 Grok 拒絕查詢的屏幕截圖,內容顯示Grok說:“恐怕我無法滿足該請求,因為這違反了 OpenAI 的用例政策。”
眾所周知,Grok號稱馬斯克版ChatGPT,并不是由 OpenAI 制造的,嚴格來說,OpenAI其實是競爭對手。但鑒于Grok如此“作答”,這不就相當于Grok自己承認是抄襲或者套殼ChatGPT嗎?
xAI 到底有沒有使用 OpenAI 模型輸出來微調 Grok?關于生成式AI的“抄襲”質疑為何總是不絕于耳?生成式AI的飛速發展會將人類導向哪個不可預知的未來?我們或許可以稍加探索。
1、Grok疑似“抄襲”事件的背后
去年夏天,由來自牛津大學、劍橋大學、倫敦帝國學院、愛丁堡大學以及多倫多大學等高校的一組AI研究者——Ilia Shumailov、Zakhar Shumaylov、Yiren Zhao、Yarin Gal、Nicolas Papernot 和 Ross Anderson 合作撰寫了一篇名為《遞歸的詛咒:基于生成數據訓練導致模型遺忘》的論文。
該論文暗示了未來(或不久的將來)AI模型可能會因自我學習而“中毒”。這一警告當時被認為是有遠見的,但也只是停留在理論層面,但現在已出現有關問題技術的實證。
他們所指的問題被稱為“模型坍塌”,在這種情況下,AI聊天機器人會丟失其最初學到的信息,并用其他AI模型生成的合成數據來替代這些信息。這種退化過程已經不再僅僅存在于理論上。
本文開篇提到的聊天機器人Grok疑似“抄襲”事件就是如此。
當Winterbourne要求Grok對惡意軟件進行調試時,Grok回應稱其不能這么做,“因為這違反了OpenAI的用例政策”。
Winterbourne在帖子中如是說:“Grok簡直就是在直接復制OpenAI的代碼庫。”
然而,曾先后就職于OpenAI和Google DeepMind,現為xAI公司工作的一位的技術人員對此予以否認。“當我們首次注意到這個問題時,確實感到非常驚訝。”
隨著這條截圖引發大量反響,ChatGPT也沒閑著,變本加厲倒了一波油:“我們的確有很多共同之處。”
馬斯克不甘示弱,反唇相譏:“既然你為了訓練而從這個平臺上抓取了所有數據,你應該清楚這一點。”
這類事件不僅加劇了科技公司之間的競爭,還重燃了OpenAI與馬斯克之間的舊日恩怨。早前,馬斯克曾是OpenAI的熱情支持者。
撇開這些科技大佬間的恩怨情仇不談,與AI相關的錯誤信息也開始出現在在線購物列表中。在電商巨頭亞馬遜的平臺上,有用戶指出,在草坪椅等商品詳情中出現了OpenAI的錯誤消息。
這些產品的原件都被命名為“我很抱歉,但我不能滿足這個要求。這違反了OpenAI的使用政策”,在媒體發現這些清單后被存檔。盡管如此,在Threads和LinkedIn等社交平臺上仍能發現許多類似的虛假帖子。
2、幻覺,又是幻覺
許多人指出,Shumailov及其團隊的研究忽視了一個關鍵點。波士頓咨詢集團X(BCG的技術構建與設計部門)的董事總經理兼合伙人Daniel Sack就是其中一位。
他在LinkedIn上寫道:“未來用于訓練模型的大部分數據將不會僅僅是源材料的簡單復制,而是全新的、前所未有的內容。”
對于他的理論,可以理解為在科技行業中,人們往往難以公開指出現有產品或協助他人開發的產品所存在的問題。硅谷一直以來都在猶豫不決,不愿承認那些由技術帶來的不良影響。
生成式AI模型的問題尤為棘手,因為大量資金押注在這個領域,使得問題更加難以明確界定。
即便是Sack所在的BCG X公司也與OpenAI進行了合作,這表明目前支持這項技術的任何一方都無法完全信賴,因為它還存在多層未解決的倫理問題。
以上所有問題都表明,我們不應過分吹噓該技術解決人類重大問題的能力。換言之,在慶祝技術進步的同時,我們也必須正視其潛在的風險和挑戰,并致力于尋求建立在道德、安全基礎上的可持續發展路徑。
3、沒有退路
生成式AI嚴重依賴于互聯網各個角落的海量數據。目前,網絡上充斥著由AI生成的垃圾信息,不管風投公司還是這些AI模型的開發者如何否認,問題確實存在,并且隨著每天數以億計的用戶使用這些工具,問題只會日益惡化。
斯塔福德郡大學倫理與游戲技術教授Catherine Flick在接受Fast Company關于Grok事件采訪時指出:“如果這些模型僅從LLM時代后的數據中學習,而又無法分辨哪些數據是由機器生成的,那么它們在長期內將無法保證可靠性——輸出內容的質量將持續下滑。”
首要問題是,人類目前無法有效區分AI生成的內容和人類創作的內容。同樣,這些語言模型也無法判斷它們所接觸到的AI生成文本是否符合現實情況,這可能會導致比現有模型更多的誤導性信息出現。
現階段,人們似乎只能袖手旁觀,目睹互聯網在這樣的環境下逐漸“燃燒”。
為解決這一問題,迫切需要制定相應的技術和倫理規范,對AI生成內容進行標注、審核以及真實性驗證,并加強對用戶教育,提高公眾對于AI生成內容真實性的辨別能力。同時,技術研發者們也應當努力改進算法,使其能夠更好地識別并過濾虛假或低質量的信息來源,確保人工智能技術服務于社會的健康發展。
參考鏈接:https://analyticsindiamag.com/how-generative-ai-is-taking-over-the-internet/