成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人類數據告急,微軟OpenAI開始用AI喂AI,奧特曼放話:未來所有數據都將變成合成數據

人工智能
對于使用合成數據,OpenAI的CEO Sam Altman不僅不介意,還放話“未來所有數據都將變成合成數據”。估值20億美元的大模型初創公司Cohere同樣在用合成數據。公司CEO、經典大模型Transformer論文作者之一Aidan Gomez甚至認為。

人類數據缺缺缺,AI被迫開始吃AI生產的數據了!

這是微軟、OpenAI等一眾AI前沿公司面臨的現狀。

他們從維基百科、電子書、新聞網站、博客、推特和Reddit等平臺和論壇中搜羅了大量數據,然后現在……這些數據快被用完了。

BUT,要訓練更好的大模型,多少數據都不夠。

據《金融時報》介紹,不少公司正把大模型生成的結果、也就是所謂的合成數據(Synthetic data),喂給參數量更小的大模型吃,發現效果還不錯。

對于使用合成數據,OpenAI的CEO Sam Altman不僅不介意,還放話“未來所有數據都將變成合成數據”。

估值20億美元的大模型初創公司Cohere同樣在用合成數據。公司CEO、經典大模型Transformer論文作者之一Aidan Gomez甚至認為:

合成數據可能加速通往“超級智能”AI系統的道路。

所以,究竟哪些大模型已經在用合成數據了,這些合成數據又是從何而來?

大AI合成數據,小AI吃

這些所謂的合成數據,本質上是用當前表現較好的大模型生成的數據,經過人工調整后,再喂給稍微小一點的大模型。

例如Cohere公司就嘗試使用了兩個大模型進行“角色扮演”對話,并將它們生成的結果做成合成數據。

這兩個大模型分別扮演“數學老師”和“學生”,正在進行一堂虛擬的數學教學。同時,Cohere安排一個人類員工在旁邊監督對話生成。

圖片圖片

一旦對話出現錯誤,人類員工就會插手對文本進行修正。

盡管確實還需要人力,但這比聘請科學、醫學和商業方面的專家來撰寫文本要便宜得多。

那么,什么樣的大模型會用到這些合成數據呢?

微軟研究院最近有研究表明,合成數據可以用于訓練比GPT-4或PaLM-2稍微小一點的語言模型。

以用GPT-4生成的一個“四歲兒童小說”數據集TinyStories為例,這個數據集被證明雖然只包含4歲小孩能理解的單詞,但用于訓練一個大模型之后,同樣可以生成語法正確、閱讀體驗流暢的故事:

圖片圖片

對于使用合成數據的理由,Cohere的CEO Aidan Gomez認為:

能從網上獲取數據當然更好,但網絡數據太雜亂了,完全無法滿足需求。相比之下,合成數據已經非常多了,即使它還沒被廣泛傳播。

背后產業鏈已出現

目前,包括Scale AI、Gretel.ai等企業,已經開始給外界提供合成數據服務。

先是Scale AI,旗下就推出了一款合成數據產品Scale Synthetic,用于給企業提供合成數據服務。

而在之前一篇SemiAnalysis爆料GPT-4“大花邊”的新聞中,還提到GPT-4的數據集中,有數百萬行是來自Scale AI和內部的指令微調數據。

圖片圖片

至于合成數據平臺Gretel.ai,從官網來看,它已經和谷歌、拳頭游戲、匯豐銀行等不同企業進行了合作,以生成更多合成的數據提供給其他開發者使用。

圖片圖片

Gretel.ai的CEO Ali Golshan認為,合成數據的好處在于,它保留了數據集中所有個人的隱私,同時仍然保持其統計學意義上的完整性(statistical integrity)。

但并非所有人都接受合成數據這種“神奇操作”,目前各方的看法主要分成兩波。

一部分贊同使用合成數據。包括Cohere等AI公司在內,有不少搞大模型的企業仍然堅持這一做法,并認為它可能生成更好的AI,甚至從中誕生出“超級智能”。

另一部分則認為,合成數據終將讓AI“自食其果”。

例如一篇來自牛津大學、劍橋大學、帝國理工學院、多倫多大學、愛丁堡大學和Vector Institute多家機構的研究表明:

使用合成數據訓練,會讓模型出現不可逆轉的缺陷:

忘記那些“不可能發生的事件”,最終被自己生成的數據毒害。

圖片圖片

有網友認為,這些合成數據最后會變成一灘“無法使用的污泥”——然后人們不得不被迫雇傭數據科學家來對它進行清洗。

圖片圖片

還有網友調侃,這聽起來就像是“AI近親繁殖”一樣。

圖片圖片

你認為AI需要使用合成數據嗎?

參考鏈接:
[1]https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de
[2]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
[3]https://arxiv.org/pdf/2306.11644.pdf
[4]https://arxiv.org/pdf/2305.17493v2.pdf

責任編輯:武曉燕 來源: 量子位
相關推薦

2022-06-13 11:18:08

合成數據AIML

2023-08-01 15:46:18

數據

2022-08-11 08:00:00

機器學習合成數據深度學習

2023-02-22 09:37:14

AI模型

2021-03-23 23:17:18

AI人工智能

2025-04-15 09:08:51

系統數據模型

2023-11-02 13:35:00

訓練模型

2024-04-25 09:01:53

2025-01-10 08:06:39

2025-01-06 08:47:00

2021-07-25 20:14:29

AI 數據人工智能

2023-12-06 11:24:02

2025-01-23 09:15:00

數據技術模型

2023-10-30 09:15:00

AI智能

2024-01-16 14:23:32

大數據人工智能AI

2024-04-09 09:38:16

OpenAI模型

2022-02-21 13:57:47

人工智能小數據機器學習

2024-01-23 15:54:05

AI精靈人工智能數據戰略

2023-07-13 12:16:12

2019-10-23 19:33:24

數據科學保護數據匿名化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜精品久久久久久久久久久久 | 欧美成人一区二免费视频软件 | 欧美一区二区在线观看 | 水蜜桃久久夜色精品一区 | 午夜视频在线观看视频 | 亚洲综合天堂 | 波多野结衣av中文字幕 | 久久久国产一区 | 黄色av网站在线观看 | 日韩在线观看中文字幕 | 一区天堂| 久久精品视频在线观看 | 亚洲一区二区三区 | 国产高清久久 | 国产精品激情小视频 | 亚洲精品自拍视频 | 中文字幕在线视频一区二区三区 | 欧美日韩精品久久久免费观看 | 武道仙尊动漫在线观看 | 91av亚洲| 中文字幕av一区二区三区 | 国产在线精品一区 | 中文字幕国产高清 | 日韩中文字幕免费在线观看 | 欧美一级免费看 | 亚洲91视频| 成人午夜性成交 | 亚洲精品视频网站在线观看 | 国产视频第一页 | 自拍视频网 | 香蕉一区二区 | 精品日韩一区 | 国产精品99视频 | 狠狠干影院 | 最新国产精品精品视频 | 国产精品国产精品国产专区不片 | 99这里只有精品视频 | 九九热免费视频在线观看 | 国产亚洲精品精品国产亚洲综合 | 91中文字幕 | 久草综合在线视频 |