田淵棟團隊發布「長故事生成器」第二版DOC:連貫性大幅提升,趣味性提升20.7%!
前段時間田淵棟博士團隊在EMNLP2022上發布了一個基于大規模語言模型的故事生成器Re3(Recursive Reprompting and Revision)框架,通過設計prompt讓模型生成一致性強的故事,完全不需要微調大模型,最長可以生成7500詞的故事。
最近Re3的作者團隊又發布了第二版長故事生成框架DOC(Detailed Outline Control),使用層次化的大綱(outline)對故事進行更細節的描繪,并使用微調后的OPT-350m模型對生成的內容進行更連貫的續寫,相比之下,人類評估后認為DOC比上一代Re3的寫作能力更強。
論文鏈接:https://arxiv.org/abs/2212.10077
論文鏈接:https://github.com/yangkevin2/doc-story-generation
DOC由兩個互補的組件組成:
1. 詳細大綱生成器(detailed outliner)可以創建一個更詳細的、分層結構的大綱,將創造性的工作從主起草(drafting)過程轉移到規(planning)劃階段;
2. 詳細的控制器(detailed controller)通過控制故事段落與大綱細節保持一致,確保更詳細的大綱在生成過程中仍然能夠發揮作用。
在自動生成故事的人類評估中,DOC 在情節一致性上取得22.5%的絕對增益,大綱相關性提升28.2%,趣味性提升20.7%,大大優于先前的 Re3基線模型,并且人類評估者還認為DOC在交互式生成環境中更容易控制。
文章的第一作者Kevin Yang是加州大學伯克利分校的四年級博士生,主要研究興趣為結構化設置下的可控自然語言文本生成,如利用可控生成的結構化方法來改善長篇文本的一致性。
第二作者田淵棟博士是Meta人工智能研究院研究員、高級經理,其研究方向為深度增強學習及其在游戲中的應用,以及深度學習模型的理論分析。先后于2005年及2008年獲得上海交通大學本碩學位,2013年獲得美國卡耐基梅隆大學機器人研究所博士學位。
DOC框架
隨著自然語言技術的不斷發展,大規模語言模型對于短文本的理解逐漸接近瓶頸,人們對生成更長的文本逐漸產生興趣,比如一次生成數千個單詞。
與短文本生成任務相比,長文本包含的內容和限制也更多,模型需要保持總體一致性,長期事實一致性,還要保持與用戶輸出的前提或計劃保持相關性。
與人類相比,像Re3這樣的故事生成系統在許多方面仍然存在不足,例如無法保證長距離下的劇情連貫性,全局不一致,故事內容偏離設定的計劃等。
為了彌補這一差距,詳細大綱控制(DOC)框架在重復使用Re3的高層次規劃起草修訂(panning-drafting-revision)結構的同時,通過兩種互補的方法提高了長期一致性。
詳細大綱
首先,detailed outliner將一個簡短的初始大綱細化為一個更詳細、層次化的大綱,這樣設計的原因是人類作者可能在起草一份長文檔之前迭代地細化和擴展一個簡短的初始大綱。
與即興創作新的情節點相比,作者可能會在高層次大綱階段計劃一個連貫的總體情節,使用擴展的大綱在起草過程中提供更詳細的指導。
在起草階段,研究人員重用了Re3重寫階段的大綱相關性和文本連貫性重排序,以檢測當前大綱項目何時完成了一段文章,并基于分數閾值實現提前停止。
大綱中有完整的設置和相關的角色,每個大綱項目都經過仔細篩選,以確保上下文中的相關性和連貫性。
在結構化prompt中,模型會突出顯示當前設置、設置中的更改,還會根據大綱中檢測到的角色檢索角色描述。
相比之下,Re3在起草過程中為每一段動態選擇相關角色,并且不跟蹤設置信息,這可能會導致故事設置發生意外變化
詳細控制器
第二個組件詳細控制器(detailed controller)通過基于相應的大綱項目控制段落生成來保持對詳細大綱的忠實性。
因為詳細大綱強加了許多重疊的軟約束,所以詳細控制器必須施加足夠的控制強度,同時詳細控制器還必須適應靈活的自然語言輸入,并在使用最先進的大型語言模型生成時具有計算效率。
所以研究人員將詳細控制器實現為基于OPT350m的控制器,設計了一個對比訓練程序,將摘要與段落前綴對齊。
最關鍵的是,研究人員還構建了許多流暢的硬負例(fluent hard negatives),以促進生成的段落不僅在開始時與主題相關,而且貫穿始終。
實驗部分
在實驗中,模型的輸入只是一個簡短的英語前提(premise),通常30-60個單詞,輸出是一個完整的故事。
研究人員沒有施加更多規則上的約束,因為「故事」的定義還不明確,更不用說定義「好故事」了,質量好壞主要依賴人工評估指標。
在評價上主要使用三個指標,更適用于比較段落而非完整的故事:
1. 連貫性,人類標注員判斷情節連貫的段落百分比;
2. 相關性,被判斷為符合相應大綱條目的段落百分比;
3. 趣味性,被認為有趣的段落百分比。
對比的基線模型包括Re3, ROLLING-OPT和ROLLING-GPT。
在實驗結果可以看到,與Re3相比,標注人員認為DOC生成的情節更加連貫,與大綱更加相關,相比ROLLING基線提升更高。
并且結果證實了模型設計的正確性,即劇情連貫性和大綱相關性得益于將創意工作從規劃轉向起草,以及改進的控制機制。
而且令人意外的是,標注人員還認為DOC的段落明顯更有趣,研究人員認為這是更詳細(更具事件性)大綱帶來的進步,進一步的消融實驗也支持了這一假設。
不過定性分析也揭示了該模型仍然有進一步改進的巨大空間。
與RE3不同的是,DOC通常不會嚴重偏離頂層大綱,而RE3有時幾乎完全偏離主題,但DOC通常無法遵循詳細大綱的較低層次部分。
DOC和RE3中的內部一致性仍然存在問題,詳細大綱中偶爾出現的錯誤可能會造成特別大的負面影響,從而在起草過程中導致更大的級聯錯誤。
此外,DOC中的大綱往往在細節層次上不一致,有些過于模糊,而另一些似乎過于展開(over-expanded)。
此外,模型檢測到的設置和角色有時也會不正確或不完整,下面的例子顯示了DOC根據上述大綱編寫的一篇刪節嚴重的故事。