成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產ChatGPT「套殼」的秘密,現在被找到了

人工智能
近2個月來,國內不少團隊先后開源了中文數據集,除通用數據集外,針對編程、醫療等垂域也有專門的開源中文數據集發布。

“科大訊飛套殼ChatGPT!”“百度文心一言套皮Stable Diffusion!”“商湯大模型實則抄襲!”……

外界對國產大模型產生質疑已經不是一次兩次了。

業內人士對這個現象的解釋是,高質量的中文數據集實在緊缺,訓模型時只能讓采買的外文標注數據集“當外援”。訓練所用的數據集撞車,就會生成相似結果,進而引發烏龍事件。

其余辦法中,用現有大模型輔助生成訓練數據容易數據清洗不到位,重復利用token會導致過擬合,僅訓練稀疏大模型也不是長久之計。

業內漸漸形成共識:

通往AGI的道路,對數據數量和數據質量都將持續提出極高的要求。

時勢所需,近2個月來,國內不少團隊先后開源了中文數據集,除通用數據集外,針對編程、醫療等垂域也有專門的開源中文數據集發布。

高質量數據集雖有但少

大模型的新突破十分依賴高質量、豐富的數據集。

根據OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸縮法則(scaling law)可以看到,獨立增加訓練數據量,是可以讓預訓練模型效果變更好的。

圖片

這不是OpenAI的一家之言。

DeepMind也在Chinchilla模型論文中指出,之前的大模型多是訓練不足的,還提出最優訓練公式,已成為業界公認的標準。


圖片

主流大模型,Chinchilla參數最少,但訓練最充分

不過,用來訓練的主流數據集以英文為主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文數據只占據4.8%。

中文數據集是什么情況?

公開數據集不是沒有——這一點量子位從瀾舟科技創始人兼CEO、當今NLP領域成就最高華人之一周明口中得到證實——如命名實體數據集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數量和英文數據集相比可謂九牛一毛。

并且,其中部分已經老舊,可能都不知道最新的NLP研究概念(新概念相關研究只以英文形式出現在arXiv上)。

中文高質量數據集雖有但少,使用起來比較麻煩,這就是所有做大模型的團隊不得不面對的慘烈現狀。此前的清華大學電子系系友論壇上,清華計算機系教授唐杰分享過,千億模型ChatGLM-130B訓練前數據準備時,就曾面臨過清洗中文數據后,可用量不到2TB的情況。

解決中文世界缺乏高質量數據集迫在眉睫。

行之有效的解決方法之一,是直接用英文數據集訓大模型。

在人類玩家打分的大模型匿名競技場Chatbot Arena榜單中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5訓練數據都是英文,再刨去其他語種,用來訓練的中文數據量少到可以用“千分之n”來計算。

圖片

國內top3高校某大模型相關團隊在讀博士透露,如果采用這種方法,不嫌麻煩的話,甚至可以給模型接一個翻譯軟件,把所有語言都轉換成英語,然后把模型的輸出轉換為中文,再返回給用戶。

然而這樣喂養出的大模型始終是英文思維,當遇到成語改寫、俗語理解、文章改寫這類含有中文語言特色的內容,往往處理不佳,出現翻譯錯誤或潛在文化的偏差。

還有個解決辦法就是采集、清洗和標注中文語料,做新的中文高質量數據集,供給給大模型們。

開源數據集眾人拾柴

察覺現況后,國內不少大模型團隊決定走第二條路,著手利用私有數據庫做數據集。

百度有內容生態數據,騰訊有公眾號數據,知乎有問答數據,阿里有電商和物流數據。

積累的私有數據不一,就可能在特定場景和領域建立核心優勢壁壘,將這些數據嚴格搜集、整理、篩選、清洗和標注,能保證訓出模型的有效性和準確性。

而那些私有數據優勢不那么明顯大模型團隊,開始全網爬數據(可以預見,爬蟲數據量會非常大)。

華為為了打造盤古大模型,從互聯網爬取了80TB文本,最后清洗為1TB的中文數據集;浪潮源1.0訓練采用的中文數據集達5000GB(相比GPT3模型訓練數據集為570GB);最近發布的天河天元大模型,也是天津超算中心搜集整理全域網頁數據,同時納入各種開源訓練數據和專業領域數據集等的成果。

與此同時,近2個月來,中文數據集出現眾人拾柴火焰高的現象——

許多團隊陸續發布開源中文數據集,彌補當前中文開源數據集的不足或失衡。

其中部分整理如下:

  • CodeGPT:由GPT和GPT生成的與代碼相關的對話數據集;背后機構為復旦大學。
  • CBook-150k:中文語料圖書集合,包含15萬本中文圖書的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領域;背后機構為復旦大學。
  • RefGPT:為了避免人工標注的昂貴成本,提出一種自動生成事實型對話的方法,并公開我們的部分數據,包含5萬條中文多輪對話;背后是來自上海交大、香港理工大學等機構的NLP從業者。
  • COIG:全稱“中國通用開放指令數據集”,是更大、更多樣化的指令調優語料庫,并由人工驗證確保了它的質量;背后的聯合機構包括北京人工智能研究院、謝菲爾德大學、密歇根大學、達特茅斯學院、浙江大學、北京航空航天大學、卡內基梅隆大學。
  • Awesome Chinese Legal Resources:中國法律數據資源,由上海交大收集和整理。
  • Huatuo:通過醫學知識圖譜和GPT3.5 API構建的中文醫學指令數據集,在此基礎上對LLaMA進行了指令微調,提高了LLaMA在醫療領域的問答效果;項目開源方是哈工大。
  • Baize:使用少量“種子問題”,讓 ChatGPT 自己跟自己聊天,并自動收集成高質量多輪對話數據集;加州大學圣迭戈分校(UCSD)與中山大學、MSRA合作團隊把使用此法收集的數據集開源。

當更多的中文數據集被開源到聚光燈下,行業的態度是歡迎與欣喜。如智譜AI創始人兼CEO張鵬表達出的態度:

中文高質量數據只是被藏在深閨而已,現在大家都意識到這個問題了,自然也會有相應的解決方案,比如數據開源。
總之是在向好的方向發展,不是嗎?

值得注意的是,除了預訓練數據,目前階段人類反饋數據同樣不可或缺。

現成的例子擺在眼前:

與GPT-3相比,ChatGPT疊加的重要buff就是利用RLHF(人類反饋強化學習),生成用于fine-tuing的高質量標記數據,使得大模型向與人類意圖對齊的方向發展。

提供人類反饋最直接的辦法,就是告訴AI助手“你的回答不對”,或者直接在AI助手生成的回復旁邊點贊或踩一踩。

圖片

先用起來就能先收集一波用戶反饋,讓雪球滾起來,這就是為什么大家都搶著發布大模型的原因之一。

現在,國內的類ChatGPT產品,從百度文心一言、復旦MOSS到智譜ChatGLM,都提供了進行反饋的選項。

但由于在大部分體驗用戶眼中,這些大模型產品最主要的還是“玩具”屬性。

當遇到錯誤或不滿意的回答,會選擇直接關掉對話界面,并不利于背后大模型對人類反饋的搜集。

責任編輯:姜華 來源: 量子位
相關推薦

2023-12-13 08:46:33

人工智能ChatGPT機器人

2022-05-09 14:33:20

代碼設計設計模式

2023-11-03 07:51:26

2023-10-09 12:57:00

AI智能

2021-12-20 10:54:47

智能華為汽車

2024-04-03 09:02:45

2021-03-16 11:03:07

虹膜識別/生物識別/信

2023-10-12 23:38:27

國產免費ChatGPT

2023-03-16 16:09:29

ChatGPT證據任務

2023-11-15 16:33:10

2023-05-06 18:37:43

2020-03-02 19:51:40

戴爾

2023-11-07 14:58:26

2021-06-04 05:13:22

鴻蒙

2013-01-08 10:41:01

殺毒軟件國產國外

2023-06-28 13:44:31

企業AI

2023-02-20 13:56:22

2022-07-11 08:48:52

業務轉型CIO

2015-09-01 09:27:25

2016-01-18 09:53:36

蘋果ios
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美午夜在线 | 欧洲一级毛片 | 亚洲一区二区三区视频 | 国产精品久久久久久久久免费高清 | 亚洲午夜av久久乱码 | 在线观看av网站永久 | 综合另类 | 日韩一区二区在线视频 | 中文字幕一区二区三区在线乱码 | 亚洲精品视频在线 | 日韩精品一区二区三区视频播放 | 国产成人精品a视频一区www | 精品免费国产一区二区三区 | 99精品视频网 | 中文二区 | 久久伊人影院 | www.yw193.com | 日韩在线大片 | av中文字幕在线 | 亚洲精品在线播放 | 国产免费av在线 | 免费黄色网址视频 | 毛片黄片免费看 | 欧美日韩三级在线观看 | 国产一区二区不卡 | 狠狠干综合视频 | 欧美性受xxxx白人性爽 | 日韩成人中文字幕 | 日日人人 | 久久手机在线视频 | 成人av免费在线观看 | 色婷婷精品久久二区二区蜜臂av | 亚洲第一天堂无码专区 | 99精品在线| 蜜桃视频一区二区三区 | 久久草视频 | 超碰国产在线 | 免费观看一级特黄欧美大片 | 在线免费观看色 | 国产在线一区观看 | 亚洲综合视频 |