成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書

發布于 2024-4-7 09:36
瀏覽
0收藏

離大譜了,


弱智吧登上正經AI論文,還成了


最好的中文訓練數據??

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

具體來說,使用弱智吧數據訓練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺,甚至是研究團隊精心挑選的數據集。

?

在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分

?

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

沒錯,論文中的Ruozhiba就是指百度貼吧弱智吧,一個充滿荒謬、離奇、不合常理發言的中文社區,畫風通常是這樣的:

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

最離譜的是,弱智吧AI代碼能力也超過了使用專業技術問答社區思否數據訓練的AI,這下吧友自己都鬧不明白了。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

其他平臺圍觀網友也紛紛蚌埠住。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

這項研究來自中科院深圳先進技術研究院、中科院自動化研究所,滑鐵盧大學等眾多高校、研究機構聯合團隊。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

作者之一也現身評論區,透露使用弱智吧數據訓練AI屬于靈機一動,以前只用來測試。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

弱智吧數據究竟如何達成這一成就,具體到論文中看。

弱智發言成指令微調神器

這項研究起初為解決中文大模型訓練中的諸多問題

  • 中文數據集很多是從英文翻譯過來的,沒有很好地契合中文的語言習慣和文化背景
  • 不少數據集是用AI生成的,質量難以保證,容易出現事實性錯誤
  • 即使是人工標注的數據集,也存在數據量小、覆蓋領域不全面等問題


為了解決這些痛點,團隊從中文互聯網的各種知識源頭直接收集數據,比如知乎、豆瓣、百科、小紅書等,經過一系列嚴格的清洗和人工審核,打造成高質量、多樣化的中文指令微調數據集COIG-CQIA

除了探索不同數據源的作用,團隊還專門從中抽取出一個精華子集CQIA-Subset

在眾多數據來源中,弱智吧成了最特別的一個。


由500個點贊最高的帖子標題+人工或GPT-4的回復組成指令微調數據集, 經過人工審核后,最終留下了240組指令-回復數據對。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

分別用各種數據集訓練零一萬物Yi系列開源大模型,在BELLE-Eval測試集上使用GPT-4評分得到結果。


在規模較小的Yi-6B模型上,純弱智吧版本總分排名第三,還不算太突出。


看來小模型還沒能領悟弱智的精髓。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

到了Yi-34B,弱智吧版本表現就一騎絕塵了。


只有在改寫和數學任務上沒能取得最高分,但成績也比較靠前。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

另外,在安全評估上弱智吧版本也能排上第二。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

對于這類現象,研究人員在分析中也給出簡單猜測:

可能是弱智吧問題

增強了AI的邏輯推理能力,從而使指令遵循任務受益。


弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

當然弱智吧并不是這項研究的全部,它的真正貢獻在于為中文大模型開發提供了一個高質量的指令微調數據集COIG-CQIA。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

通過對各種中文互聯網數據源的探索,這項研究為構建中文指令數據集提供了很多有益的啟示。比如社交媒體數據雖然開放多樣,但也存在不少有害信息風險;而百科類數據專業性強,但覆蓋面可能不夠廣。

弱智吧上大分

這項研究一發,網友集體笑不活。除了“XSWL、思路開闊了”嬸兒的純圍觀,也有網友認真討論起了弱智吧有如此奇效的原因。


大伙兒都比較認可的一個原因是弱智吧題目的“異質”。


像腦筋急轉彎,增加了指令多樣性,所以提升了模型最終性能:

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

通用數據集多半已經在pretrain階段見過了,再訓一遍只會加重overfitting。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

另一個原因是弱智吧數據文本質量很高,用詞準確且簡潔

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

千言萬語匯成一句話:把弱智吧只當簡單的段子合集真的是嚴重低估了它的價值!

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

雀食,要不此前弱智吧問題也經常被大伙兒用來測試大模型呢。事實上從ChatGPT誕生之初,弱智吧就深度參與了大模型的發展,可以算是這一波AI浪潮的重要見證者了。


一開始只是網友拿來拷打AI,搞搞節目效果。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

后來大家發現,弱智吧問題中充滿陷阱,剛好可以用來分辨AI能力高低。


還記得23年初那會兒,各家大模型第一版還不太能很好應對這類問題,如2023年3月的文心一言:

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

后續版本也漸入佳境了,如2023年8月的文心一言:

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

直到今天,弱智吧問題都是每個新發布大模型都必須要過的一關,被戲稱為弱智吧Benchmark。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

秘塔寫作貓

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

Inspo

再后來,AI公司們自己也開始重視起來,如百度官方就搞過聯動直播。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區

當初網友為了調戲大模型專門搜集的弱智吧問題測試集,沒想到有一天也能搖身一變,成了訓練集。

弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書-AI.x社區


本文轉自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/iq5lGyh9Y5P7NXLUS3-giA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线观看视频亚洲 | 中文字幕日韩欧美一区二区三区 | 久久精品亚洲 | 男女羞羞免费视频 | 电影91久久久 | 亚洲精品大片 | 国产精品久久影院 | 综合久久久 | 久久中文字幕一区 | 久久精品国产a三级三级三级 | 欧美综合网| 久久久日韩精品一区二区三区 | 天天干天天操天天爽 | 日韩一区二区成人 | 狠狠插狠狠操 | 国产精品久久国产精品 | 天天久久 | 欧美视频免费在线观看 | 精品二区 | 日韩欧美在线一区 | 亚洲一区日韩 | 免费观看毛片 | 一区二区三区回区在观看免费视频 | 久久精品a级毛片 | 国产高清久久久 | 欧美激情精品久久久久久免费 | 伊人网伊人网 | 精品在线免费看 | 精品1区2区3区 | 欧美日韩在线成人 | 久久天天 | 91精品国产日韩91久久久久久 | 成人久久久 | 中文二区 | 精品久久久久一区 | 日韩免费视频一区二区 | 都市激情亚洲 | 国产一区二区在线视频 | 精品免费视频 | 特级丰满少妇一级aaaa爱毛片 | 精品亚洲一区二区三区四区五区 |