人類創造的數據太貴了!開發者悄悄使用AI合成數據訓練模型
現在,開發者都在悄悄使用AI生成的數據來訓練AI模型。
原因就是——人類創造的數據,實在是太貴了!
在以往,大多數AI模型都是靠人類的數據訓練的,但現在,越來越多的公司(包括OpenAI、微軟,以及Cohere這樣的初創公司)都開始使用這種AI生成的「合成數據」,或者在努力搞清如何使用AI生成的數據了。
雖然,這會讓整個AI生態系統變成一種自己吃自己的「貪吃蛇」,但是,人類自己創造的數據,實在是負擔不起了?。?/span>
互聯網上的人類數據快耗盡了
除了價格,另外還有一個原因,就是規模問題。
現在,互聯網上很多可用的人類數據都被薅干凈了,可是如果要構建更強大的模型,就需要更多數據。
去年11月,ChatGPT的推出引爆了大模型之戰,谷歌、微軟、Meta、Anthropic等大科技公司輪番下場,三不五時就更新一波新產品。
而像ChatGPT和Bard這樣的聊天機器人背后的LLM,主要就是通過抓取互聯網數據來訓練的,包括所有數字化書籍、新聞文章、博客、搜索查詢、Twitter和Reddit帖子、YouTube視頻、Flickr圖像等等。
但現在,生成式AI變得越來越復雜,即使是很多財力雄厚的大公司,也耗盡了易于訪問的高質量數據,來訓練AI模型。
與此同時,因為訓練AI所消耗的個人數據數量龐大,來源廣泛,他們也在不斷承受著全世界各地的監管機構、藝術家和媒體的抨擊。
大家早就在悄悄用了
開發者紛紛表示,來自網絡的通用數據,已經不足以推動人工智能模型的性能。
Cohere首席執行官Aiden Gomez在接受《金融時報》采訪時表示,如果能從網上獲取需要的所有數據,就太完美了。
然而可惜的是,互聯網上的信息如此嘈雜、混亂,以至于它們并不能代表開發者真正想要的數據。
其實,Cohere早就在悄悄用合成數據訓練LLM了,雖然這個消息還未被廣而告之。
而OpenAI之類的公司,也在做此打算。
在五月份于倫敦舉行的一次活動中,OpenAI CEO Sam Altman被問及是否擔心對ChatGPT隱私侵犯風險的監管調查。
Altman對此不以為意,云淡風輕地表示,很快所有的數據都會變成合成數據,他對此非常有信心。
合成數據潛力巨大
合成數據,似乎前途大好。
而微軟已經發表了一項研究,來論證合成數據如何加強基本的LLM。
論文地址:https://arxiv.org/pdf/2306.11644.pdf
如今,像GPT-4這類最前沿的模型,在寫作和編碼等領域的表現已經在接近人類,還能通過美國律詩考試等基準測試。
為了顯著提高性能,讓它們能夠應對科學、醫學或商業方面的挑戰,就需要使用獨特而復雜的數據集來訓練AI模型。
這些數據集要么需要由科學家、醫生、作家、演員或工程師等專家創建,要么需要作為專有數據,從制藥、銀行和零售商等大公司獲得。
然而,人類創造的數據集,價格太昂貴了。
如果使用合成數據,成本就會大大降低。
公司可以用AI模型來生成與醫療保健、金融欺詐等領域相關的文本、代碼或更復雜的信息,然后用這些合成數據來訓練高級LLM,讓它們性能更強。
Gomez透露,Cohere及其幾個競爭對手早就在使用合成數據,然后由人類進行微調和調整了?,F在很多地方都在大量采用合成數據了,盡管這個消息還沒有大量公開。
Gomez解釋道,比如為了訓練一個高等數學模型,Cohere就會讓兩個AI模型對話,一個充當導師,一個充當學生。
它倆會談論三角學,所有對話都是合成的、靠模型想象出來的。
然后人類會檢查這個對話,如果模型說錯了,人類就去糾正。
微軟最近的兩項研究表明,合成數據可以用來訓練比OpenAI的GPT-4或Google的PaLM-2這類先進模型更小、更簡單的模型。
一篇論文描述了由GPT-4生成的短篇小說的合成數據集,它只包含了四歲孩子能理解的單詞。
論文地址:https://arxiv.org/pdf/2305.07759.pdf
這個數據集被稱為TinyStories,它被用來訓練一個簡單的LLM,它會講出流利和語法正確的故事。
另一篇論文表明,人工智能可以以教科書和練習的形式進行合成Python代碼的訓練,這些代碼在編碼任務上表現得很好。
Scale AI和Gretel.ai等初創企業也如雨后春筍般涌現,它們提供的,就是合成數據即服務。
Gretel由來自NSA和CIA的前美國分析師成立,與谷歌、匯豐銀行、Riot Games和Illumina等公司合作,用合成數據訓練更好的AI模型。
根據Gretel CEO Ali Golshan的說法,合成數據關鍵就在于,它保留了數據集中的所有個人隱私,同時仍然保持了統計上的完整性。
并且,精心制作的合成數據還可以消除現有數據中的偏見和不平衡。
「對沖基金可以查看黑天鵝事件,還能創建一百種變體,看看我們的模型是否會失敗?!?/span>
對于銀行來說,欺詐通常占總數據的不到100%,而Gretel的軟件可以生成「數千個關于欺詐的邊緣案例場景,并用于訓練AI模型。
AI貪吃蛇,可行嗎?
當然,用AI「自產自銷」的貪吃蛇式數據,也存在著巨大的問題。
就算是在人類數據上訓練出來的AI,都會出現重大的事實性錯誤,更何況AI自己生成數據呢。
批評者指出,并非所有合成數據都會經過精心策劃,以反映或改進現實世界的數據。
隨著AI生成的文本和圖像開始充斥互聯網,人工智能公司很可能最終會使用由自己模型的原始版本產生的原始數據——這種現象被稱為「狗糧」。
斯坦福大學和萊斯大學的科學家發現,將人工智能生成的內容提供給人工智能模型,似乎會導致它們的輸出質量下降。
論文地址:https://arxiv.org/abs/2307.01850
這種類似貪吃蛇的自我消費,會打破模型的數字大腦。
萊斯大學和斯坦福團隊發現,將AI生成的內容喂給模型,只會導致性能下降。研究人員對此給出一種解釋,叫做「模型自噬障礙」(MAD)。
研究發現在使用AI數據,經過第5次迭代訓練后,模型就會患上MAD。
在合成數據上訓練AI模型會逐漸放大偽影
換句話說,如果不能給模型提供「新鮮的數據」,即由人類標注的數據,其輸出質量將會受到嚴重影響。
而牛津大學和劍橋大學的研究者也發表了論文,發出警告說,在自己的原始輸出上訓練人工智能模型,其中可能包含虛假或捏造,會隨著時間的推移,這些數據或許會破壞模型,導致「不可逆轉的缺陷」。
論文地址:https://arxiv.org/pdf/2305.17493v2.pdf
AI,你趕快學會自學吧
Golshan同意,如果用糟糕的合成數據進行訓練模型,可能會阻礙它們的進步。
「隨著互聯網上充斥著越來越多AI生成的內容,確實會導致模型退化,因為它們在產生反芻的知識,沒有產生任何新的見解?!?/span>
盡管存在這些風險,但Cohere的Gomez等AI研究人員仍然表示,合成數據有望加速通往超級智能AI系統的道路。
CEO Gomez這樣說道:你真正需要的,就是能夠自學的AI模型——自己提出問題,自己發現真理,自己創造知識,這就是人類的夢想。
網友展開激烈辯論
對此,多位網友發表了高見。
合成數據有以下好處——
?? 合成數據可以潛在地解決使用真實世界數據會產生的隱私問題。
?? 針對特定需求創建的合成數據,可能具有更高的質量,從而產生更準確的AI模型。
?? 訓練高級AI模型對數據的需求正在飆升。合成數據幾乎能無限供應,大大減少了數據赤字。
但是,AI訓練AI背后的目的至關重要:
??如果我們的目標是創建幫助人類的人工智能模型,那么對人類生成的數據進行訓練可能更合適。這確保了人工智能的反應和行為與我們自己的反應和行為更加一致,并且與我們相關。
??如果我們的目標是創建超級智能AI,那么合成數據可能是關鍵,它讓模型能夠從超出人類理解能力的模型中學習。
??我們已經看到很多例子,人工智能從合成數據中自我學習導致結果質量下降。所以,現在的答案在于真實世界的合成數據和用于訓練的專家數據的平衡組合。可解釋性AI是解釋如何確定模型結果的絕對關鍵。
我的立場和其他人不同:我不認為在未來應該讓LLM生成數據并讓其他模型從中學習,我認為,必須在私有領域數據上進行進一步的模型訓練和調整,使公司能夠利用其敏感但獨特的數據,作為業務的核心差異化因素。
正確的方法是,具有隱私保證的合成數據。
正如我們所說,「訓練模型是為了了解疾病,而不是了解患者」——這就是合成數據的承諾,我們是將自己的見解轉移到模型中,而無需分享我們的個人詳細信息。
1. 有些領域需要好的數據,而不是完美的數據,在這些地方合成數據將產生最大的影響。
2. 與此相關的是,質量將基于平均水平的范圍,而不是極端情況下的杰出結果。
3. 如果技術人員設計的計算機制造數據被用于訓練AI,就會加劇系統中的偏見——其中大多數是認知偏見——即使只是無意中, 因此,與其考慮有風險的工作類別,更好的方法可能是考慮哪些工作是體面的、必要的,但它只需要達到一定的閾值標準,而不是100%。
最后一點,很多人在討論人工智能與工業革命的相似之處。在股市場上,被動投資基金和ETF的興起也有很多相似之處,即現在大多數交易都是基于算法,而不是實際的人為干預完成的。
但這樣的系統本質上往往是被動的,并且很容易被操縱。