一鍵生成萬字專利!中科院發布多智能體框架AutoPatent,含1933個「草稿-專利」數據對
在科技日新月異的今天,專利作為保護創新成果的重要法律工具,其撰寫過程卻往往繁瑣且耗時,傳統的專利撰寫工作通常由熟悉專利法律和技術領域的專利代理人完成,這一過程耗時費力,且效率較低。因此,開發一種能夠自動化生成高質量專利文檔的方法,對于提高專利撰寫的效率和準確性具有重要意義。
最近,來自中科院深圳先進院和大連理工大學的研究團隊聯合開發了一個名為AutoPatent的自動化的多智能體專利生成框架,能夠在十分鐘左右的時間依據發明人的專利技術底稿生成一篇完整的專利文檔。
圖片
論文地址:https://arxiv.org/abs/2412.09796
代碼鏈接:https://github.com/QiYao-Wang/AutoPatent
研究背景
一份完整的專利申請文件通常包含標題、摘要、技術背景、詳細描述和權利要求等內容,其平均長度在17,000 Tokens以上。以往的專利申請流程通常為發明人依據發明的具體可實施內容撰寫專利技術底稿委托專利代理人起草專利申請文件。
專利起草是一個復雜的知識密集型任務,需要專利代理人對專利法熟悉并且具備該發明所屬技術領域的知識,從而能夠完成對發明人技術底稿的審查和規范化重寫。
目前這一過程仍然完全由人工手動完成,具有較高的人力成本和時間成本,從技術交底書到正式向專利局提交的時間通常在一個月以上,無法有效保護迭代更新較快的技術領域的相關發明。
專利起草任務Draft2Patent
以往的專利撰寫任務通常關注專利文件內部文本的相互轉化,例如專利的摘要與權利要求之間的相互轉化等。
研究人員通過模擬真實場景中的專利撰寫工作,引入了一項新穎的專利起草任務Draft2Patent,將發明人技術底稿轉化為完整的專利文件,提升專利代理人的專利撰寫效率。
該任務主要有兩個主要困難:
- 底稿和完整專利的平均長度分別為4,000 Tokens和17,000 Tokens。
- 一份高質量專利需要具有專利性(非顯而易見性、有用性、新穎性以及符合專利法律規范),同時需要滿足專業技術領域和法律的相關規范。
研究人員構建了Draft2Patent任務對應的基準數據集D2P,其中包含1,933條底稿專利文本對和其他元數據,并將其劃分為包含1,500條數據的訓練集,133條數據的驗證集和300條數據的測試集。
隨著大語言模型的發展,基于大語言模型的智能體展現了在知識密集型領域的意圖理解、規劃、記憶、重復思考及任務執行的強大能力。
針對Draft2Patent任務,研究人員提出了一個新穎的多智能體自動化專利起草框架AutoPatent,其中使用寫作、規劃及審查三大類八個智能體在短組件生成、專利寫作規劃樹構建(PGTree)、參考-審查增強生成(RRAG)三步驟的驅動下完成完整專利的撰寫。
該篇文章的主要貢獻有:
- 自動化生成,提升專利撰寫效率
通過自動化生成專利文檔,文章提出的AutoPatent框架顯著提高了專利撰寫的效率,能夠在十分鐘左右的時間內生成一篇完整的專利文檔,減輕了專利代理人和發明者的工作負擔,使他們能夠更專注于創新和專利內容的優化。
- 多智能體協作,提升專利質量
AutoPatent框架通過多智能體協作,其中規劃智能體構建PGTree(Patent Writing Guideline Tree,專利寫作指南樹),專利詳細描述寫作智能體與審查智能體基于RRAG(Reference-Review-Augmented Generation,參考審查增強生成)協作撰寫占據專利文本80%以上的詳細描述部分,確保生成的專利文檔符合法律和技術標準。這提高了專利的合規性和保護范圍,增加了專利被授權的可能性。
- 由此及彼,推動知識產權服務創新
文章提出的Draft2Patent任務和AutoPatent框架為知識產權服務領域帶來了新的思路和方法。這有助于推動知識產權服務的創新和發展,提高整個行業的服務水平和競爭力。
數據集
研究團隊構建了D2P基準數據集,包含1,933個草稿-專利對和其他專利元數據。
由于專利局僅公開授權專利,而發明人和專利代理人不會公開其發明的底稿。
為此,團隊通過與專業的專利代理人溝通,構建了涵蓋發明所有相關信息的五個問題,對于單個專利P,將GPT-4o-mini模擬為發明人,通過詢問五個問題得到對應的回答
,并將其與問題組合為底稿。
圖片
為了保證底稿的有效性,研究人員構建了對應問題的審查標準,通過將GPT-4o模擬為專利審查員來評估每個答案是否能夠準確描述該發明,并且通過人工篩選后,獲得了1,933條高質量的專利底稿數據。
D2P數據集中不僅包含底稿專利文本對,還包含底稿與其他專利元數據文本對,如底稿標題文本對等用于智能體的微調,同時還構建了底稿-PGTree文本對數據,用于微調規劃智能體。
圖片
對于單個專利P,研究人員將GPT-4o-mini模擬為人工智能助手總結專利P的詳細描述中每一部分的內容,并將其組織構建為預設的雙層多路專利寫作規劃樹的數據結構。
統計數據集中各部分的文本長度后,可以看到標題、摘要、權利要求、總結及技術背景等內容的長度小于2000 Tokens,而專利的詳細描述部分長度超過了14,000 Tokens,占據完整專利的80%以上,生成高質量專利詳細描述是本基準的一大挑戰。
自動化專利撰寫框架AutoPatent
研究人員提出了一個新穎的多智能體自動化專利起草框架AutoPatent,其中包含三大類八個智能體在三大步驟的驅動下完成完整專利的撰寫。
圖片
智能體
在AutoPatent框架中,定義了八個智能體,并將其分為三類:寫作智能體、規劃智能體及審查智能體。
寫作智能體:由于專利的各個部份之間存在著一定的格式及風格差異,如專利的摘要一般較短而權利要求通常為具有編號的結構化文本。將六個寫作智能體分為兩大類,即短文本寫作者和詳細描述寫作者。
規劃智能體:由于專利的詳細描述的平均長度超過14,000 Tokens,為大語言模型一次性生成詳細描述帶來了困難。通過引入雙層多路的專利寫作規劃樹PGTree,指導詳細描述寫作者在RRAG過程中分步生成完整的詳細描述。
審查智能體:通過模擬真實場景中的專利撰寫步驟,定義了審查智能體。其需要依據事先設定的評價規范完成兩類任務,即發明人提交新底稿后的質量審查和與詳細描述寫作者協作評估詳細描述的質量并提供反饋達到優化的效果。
工作流程
提供了相應的邏輯框圖和偽代碼。通過模擬真實場景中的專利撰寫過程將AutoPatent框架的整體工作流程分為三步。
短組件生成:在Step I中,利用不同的短文本寫作者將專利底稿并行轉化為對應的短文本。之后將這些短文本與專利底稿共同組成參考(Reference, R)。
專利寫作規劃樹構建:在Step II中,利用規劃智能體構建該底稿對應的PGTree。PGTree是一個雙層多路樹,將詳細描述的生成任務拆解為雙層級的大綱式多步生成任務。第一層節點提供該部分的整體概述,第二層節點向詳細描述寫作者提供每個子部分的具體指令。
圖片
參考-審查增強生成:在Step III中,詳細描述寫作者首先根據PGTree中二層節點的具體寫作指令從參考R中檢索對該部分寫作有用的信息,提升內容的一致性和可靠性。詳細描述寫作者之后根據二層節點的具體寫作指令和檢索到的內容生成子部分的內容,審查智能體將主動介入依據審查標準判斷生成的子部分的質量,并通過與詳細描述寫作者的多輪交互完成子部分的內容優化,直至通過審查。
實驗結果
研究人員采用了n-gram基于的BLEU指標和ROUGE-1、ROUGE-2、ROUGE-L指標作為客觀指標,同時提出了一種新的逆重復率(IRR)指標來衡量專利文檔中句子的重復程度,從而去除由于重復句子過多對基于n-gram的指標的過度獎勵。
其中真實專利的IRR在t=0.2時為91.33,t=0.4時為98.57,真實專利的文本重復率較低。
圖片
其中基于Jaccard相似度和設定的閾值超參數判斷專利文本內部句子的重復,函數f(si, sj)定義為:
圖片
圖片
同時,實驗邀請了三位熟悉專利法和專利撰寫的人類專家對生成的專利文檔進行質量評價。評價標準包括準確性、全面性、邏輯性、清晰度、連貫性和一致性等六個維度。
將AutoPatent框架與零樣本提示生成方法和監督微調生成方法進行了對比,以評估AutoPatent框架的性能。
圖片
實驗結果顯示,AutoPatent框架在多個維度上均優于基線方法,其中AutoPatent框架使用Qwen2.5-7B作為基座模型時的性能超過了參數量更大和能力更強的模型,生成的專利文檔在長度、內容質量、重復率等方面均表現出色。
與此同時,三位人類專家均認為基于AutoPatent框架生成的專利文本質量好于其他方法。
AutoPatent的出現在未來可能對知識產權行業產生深遠影響:
- 專利生成流程重塑:傳統的專利申請流程繁瑣,涉及多次人工審核和修改。AutoPatent通過自動化生成和審查流程,將原本需要數周甚至數月的時間縮短至幾小時或幾天,極大地提高了效率。
- 降低專利書寫難度,促進創新:AutoPatent的出現降低專利撰寫難度,當專利撰寫變得更為便捷和經濟時,更多的創新想法將有機會轉化為專利,從而激發整個社會的創新活力。
- 知識產權服務行業變革:隨著AutoPatent等自動化工具的應用,知識產權服務機構將不得不探索新的服務內容和模式,如專利數據分析、專利價值評估等增值服務。
參考資料:https://arxiv.org/abs/2412.09796