成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中文創意寫作能力超GPT-4,「最會寫」的中文大模型Weaver來了

人工智能 新聞
近日,波形智能的大模型團隊發布了一款專精 AI 寫作的專業大模型 Weaver。通過寫作領域專業預訓練和一套創新性的數據生成和 Alignment 算法,Weaver 在寫作領域的各種任務上均取得了領先 GPT-4 和眾多中文通用大模型的效果。

ChatGPT 等通用大模型支持的功能成百上千,但是對于普通日常用戶來說,智能寫作一定是最常見的,也是大模型最能真正幫上忙的使用場景之一。盡管大模型經常能寫出看起來像模像樣的文字,但是大多數情況下內容的創意程度和文風都經不起深究。尤其是在創作領域,大模型常見的 “GPT 文風” 更是讓利用大模型進行創意寫作看起來簡單,實際卻困難重重。

近日,波形智能的大模型團隊發布了一款專精 AI 寫作的專業大模型 Weaver。通過寫作領域專業預訓練和一套創新性的數據生成和 Alignment 算法,Weaver 在寫作領域的各種任務上均取得了領先 GPT-4 和眾多中文通用大模型的效果,尤其是在生成內容的創意性和文風質量上大幅領先,是一款更能寫出 “人話” 的大模型。

圖片


  • 論文地址:https://arxiv.org/pdf/2401.17268.pdf
  • 在線 Demo:https://www.wawawriter.com/

ChatGPT 等大模型在通用指令跟隨和問答任務中效果出色,但是將大模型應用于專業寫作,尤其是需要創造性和個性化文風的創意寫作領域卻依然面臨重重阻礙。其中最大的問題就是大模型生成內容風格過于平淡,或者說文風過于 “GPT”,缺少創造性。

為了解決這個問題,訓練出更適合專業寫作的大模型,波形智能的研究團隊分析了為什么 GPT 和其他通用大模型都做不好創意寫作類任務。首先,通用大模型的預訓練過程,因為希望讓模型在更多的數據中自監督學習,預訓練的數據集中常常會包含非常多的低質量內容,真正由專業作家和內容創作者寫作的高質量文本內容可能只占預訓練數據總量的 0.1% 不到。因此,經過預訓練后的語言模型在建模了整個互聯網的文本分布之后,自然會傾向于輸出較為普通的內容。而在模型的對齊階段,OpenAI 等公司眾包標注指令微調數據集的過程中的標注員的教育 / 寫作水平有限,沒有對標注者的寫作 / 創作能力進行篩選。另外標注的過程中的標準也主要強調回答的無害性 (harmlessness) 和有效性 (helpfulness),而沒有考慮回答內容的創造性和語言 / 寫作風格。因此,經過指令微調的語言模型反而更容易生成平庸無趣的文字。最后,在 RLHF/DPO 等 alignment 算法中,模型的訓練數據和 Reward Model 均由經過指令微調后的模型生成或訓練得到,因此對于文風和創造性上,RLHF/DPO 的過程也只能是 “矮子里拔將軍”,無法強化出真正擅長寫作的大模型。

基于此觀察,波形智能的大模型團隊提出了一個尤其適合創意寫作領域的垂域專業模型訓練 pipeline,并基于此方案訓練了 Weaver,一個全球領先的創意寫作大模型。該方案覆蓋了模型的 (持續) 預訓練,指令微調 (instruction tuning),和對齊 (RLHF/DPO) 階段。在預訓練階段,團隊進行了非常仔細的數據篩選和過濾,利用人工 + 規則 + 機器學習模型協同的方案,從開源預訓練數據集中找到了高質量的小說 / 短故事 / 創意文案等類別的文本內容,舍棄掉了大量的低質量內容和代碼 / 廣告等數據,并下采樣了一部分高質量的新聞數據,同時結合了大規模的私有創作領域數據 (小說,短故事等),構建出了超過 200B 的可以讓模型專注學習創作能力的預訓練數據。

在指令微調階段,波形智能的數據生成團隊參考并改進了 Meta 提出的 LongForm 和 HumpBack 方案,構建了一套可以基于一段高質量內容,自動生成各種寫作相關任務指令和對應的高質量輸出的 Instruction Backtranslation 流水線。團隊總結并定義了 “寫內容”,“寫大綱”,“擴寫”,“潤色”,“精簡”,“風格遷移 (仿寫)”,“審?!?,“頭腦風暴”,“起標題”,和 “寫作相關對話” 十個類別的任務。對于一類任務,如 “潤色”,標注 Prompt 中首先解釋任務的定義和幾個輸入輸出樣例,之后給出一個從一段文本中自動挖掘潤色任務指令 / 輸入 / 輸出的例子和標注的思考過程: “首先在文本中找到一段寫的很好的句子,假設這句話是經過一次潤色而來的,之后猜測在潤色之前這句話會是什么樣子,最后分析潤色前后的變化,推理出潤色的指令會是什么樣子?!?之后標注的 Prompt 中輸入需要標注的例子并指示大模型按照例子中的標注流程進行輸出,最后 parse 出模型輸出中標注的 “指令 / 輸入 / 輸出” 部分,組合成一條寫作指令數據。

相比 OpenAI 等公司的標準眾包標注指令數據的流程,波形智能的標注策略更高效 (眾包標注者只需要挑選特定領域高質量的內容即可,后續標注流程由 AI 完成),而眾包標注和目前常用的 self-instruct 類的全自動標注流程相比,波形智能的標注流程能夠生成更高質量的數據 (因為輸出是手工挑選的高質量內容或其中的一部分)?;谶@個策略,波形智能的大模型團隊收集了涵蓋小說寫作,創意寫作,專業寫作,營銷文案寫作這四大領域中高質量的內容并進行了自動化標注,產出了 100 萬 + 高質量的寫作領域指令微調數據集。

圖片

圖 1: Weaver 訓練數據分布和來源

接下來,在對齊 (Alignment) 階段,波形智能的數據生成團隊提出了 Constitutional DPO, 一套全新的,基于原則高效將模型和專業作家 / 創作者對齊的方案。和以往基于模型輸出 + 人類 / 大模型評估的對齊策略不同。Constitutional DPO 以人類創作者創作的高質量的輸出作為正樣本,利用人類作家 / 編輯整理提煉出的各個領域寫作的 “原則 (Principles)”,用這些原則去生成能夠教會模型更好地遵守這些原則的負樣本。具體來說,專業作家 / 編輯首先整理出四大領域十個任務中,好的內容需要遵循的共 200 余條原則。對于每一個原則,編輯總結出原則的詳細解釋和一對符合 / 違背該原則的例子,并用幾句話解釋出符合 / 違背原則的原因。之后,對于每一個正樣本,負例生成的 prompt 中首先展示出領域 - 任務上的原則集合和原則對應的例子和解釋,之后展示出正樣本,要求大模型分析出正樣本最符合哪幾條原則,并推理出如何修改能夠在作出較少改變的情況下讓正樣本轉而違背這個原則,從而變成一條質量沒那么好的輸出。團隊精選了各個領域高評分 / 高閱讀量 / 高點贊評論數的內容作為正樣本,通過 Consitutional DPO 的流水線生成出了數萬條偏好數據 (preference data),并利用這些數據對模型利用 DPO 進行了對齊訓練。

圖片

圖 2 - Constitutional DPO 方法示意圖

圖片

圖 3 - 專家標注的寫作原則

除此之外,波形智能的數據生成團隊還設計了一套支持 RAG-aware training 的數據生成方案,過濾 / 精選出了一系列輸出內容明顯基于其他內容的樣本,通過 10 余個常用的 RAG 模版,構造出了 10 萬余條的 RAG 訓練數據,使得 Weaver 模型能夠原生支持 RAG,能夠結合參考文獻和范文進行高質量的創作 / 仿寫。除此之外,團隊還設計了一套讓 Weaver 支持 Function Calling 的數據生成方案。最終 Weaver 的微調數據量總和達到了 100 萬 + 量級。

Weaver 模型家族一共包括四個不同大小的模型,名字叫做 Weaver-mini/base/pro/ultra, 分別包括 18 億,60 億,140 億和 340 億參數。為了評估 Weaver 模型和通用大模型的寫作能力,波形智能的模型評估團隊構建了一個新的用戶大模型專業寫作能力評估的 Benchmark。Benchmark 中精選了涵蓋四大寫作領域 30 余個子領域的十項寫作任務的有代表性指令,共包含 2000 + 條指令。團隊收集了 Weaver 和 10 余個有代表性的開源 + 閉源模型在 Benchmark 上的輸出,并分別進行了人工對比評估和基于 GPT4 的自動評估。

評估結果顯示,Weaver Ultra 在 Benchmark 中對生成內容的新穎度和文風的評估中對比包括 GPT-4 在內的通用大模型均有顯著領先,在生成內容的流暢性和切題程度上也和行業領先的 GPT-4 相當,領先其他開源 / 閉源模型。而其他較小的 Weaver 模型也都在各項指標中相比大 2-3 倍的通用大模型有明顯優勢。

圖片

圖 4: Weaver 在 WriteBench 的評測結果

除了標準 Benchmark 的人工和自動評估以外,波形智能的模型評估團隊還在包含人機交互的實際應用場景中對 Weaver Ultra 和 GPT-4 進行了用戶體驗測評。由 4 位人類寫手在同樣的 Chat Interface 分別使用 Weaver Ultra 和 GPT-4,以相同的主題分別創作一個短故事,一個小紅書文案,一個商業計劃書,和一個課程論文。測評結果顯示,人類寫手利用 Weaver 進行創作的效率相比使用 GPT-4 提升了約 40%,而專業編輯對創作內容的質量評比中也以 9:3 的比分更傾向于采用 Weaver 創作的文案。分析顯示,Weaver 帶來的效率提升主要來自于生成內容的文風更得體,需要的后編輯更少,以及創作過程中 Weaver 交互更加直接,不會輸出無用的廢話和疑問。而來自專業編輯的反饋主要集中在基于 Weaver 創作的作品風格往往更符合實用標準,以及創作的內容個新穎程度更高,不死板。

圖片

圖 5: Weaver 和其他大模型在人工評測中的 ELO Rating

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-30 21:18:57

模型智能CMMLU

2024-04-01 08:00:00

AI模型

2023-03-16 19:17:57

2024-07-08 08:38:00

模型推理

2024-05-07 11:42:54

MoE模型GPT-4

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2022-05-20 10:43:30

AI模型

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2023-03-28 08:23:38

2024-01-16 12:31:13

OpenAIGLM-4大模型

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-06-08 11:27:10

模型AI

2025-03-21 09:35:29

2023-06-19 08:19:50

2023-10-21 12:42:06

數據模型

2024-04-19 14:52:13

MetaGPT-4模型

2023-04-09 16:17:05

ChatGPT人工智能

2023-10-12 14:18:06

2023-05-08 12:47:48

IBM模型

2024-02-06 17:55:10

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久成人一区 | 亚洲综合免费 | 久久精品视频9 | 在线中文字幕av | 亚洲欧美视频一区二区 | 91福利在线导航 | 小h片免费观看久久久久 | 精品成人免费一区二区在线播放 | 亚洲视频在线播放 | 91麻豆久久久 | 国产一级片在线播放 | 中文字幕一区二区三区乱码在线 | 精品久久久久久久久久久下田 | 成人做爰www免费看 午夜精品久久久久久久久久久久 | 亚洲福利 | 久久伊人免费视频 | 国产在线精品一区二区三区 | 99久久久国产精品 | 成人小视频在线观看 | 97国产在线视频 | 精品国产伦一区二区三区观看体验 | 亚洲精品永久免费 | 国产成人免费在线 | 欧美αv | 日本h片在线观看 | 中文字幕第90页 | 国产成人精品免高潮在线观看 | 毛片大全 | 在线成人 | 成年人视频免费在线观看 | 免费一区二区在线观看 | 在线观看中文字幕一区二区 | 国产一区二区三区久久久久久久久 | 91在线精品视频 | 一a一片一级一片啪啪 | 蜜桃av一区二区三区 | 久久一区二区三区免费 | 久久久久www | 中文字幕在线观看日韩 | 久久高清亚洲 | 中文字幕av中文字幕 |