成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

陶哲軒看了都直呼內行!谷歌等用LLM自動證明定理拿頂會杰出論文,上下文越全證得越好

人工智能 新聞
在軟件工程頂會ESEC/FSE上,來自馬薩諸塞大學、谷歌和伊利諾伊大學厄巴納-香檳分校(UIUC)的研究人員發表了新的成果,使用LLM解決自動化定理證明問題。

Transformer的技能樹是越來越厲害了。

來自馬薩諸塞大學、谷歌和伊利諾伊大學厄巴納-香檳分校(UIUC)的研究人員發表了一篇論文,利用大語言模型自動生成定理的完整證明。

圖片

論文地址:https://arxiv.org/pdf/2303.04910.pdf

這篇工作以Baldur(北歐神話中雷神Thor的兄弟)命名,首次證明了使用Transformer生成全證明是可能的,并且當為模型提供額外的上下文時,還可以改進模型先前的證明。

文章發表于2023年12月在舊金山舉行的ESEC/FSE(ACM歐洲軟件工程聯合會議和軟件工程基礎研討會)上,并獲得了杰出論文獎(Distinguished Paper award)。

眾所周知,軟件存在bug(廢話),這在一般應用程序或者網站上問題不大,但對于比如加密協議、醫療設備和航天飛機等關鍵系統背后的軟件而言,必須確保沒有錯誤。

——一般的代碼審查和測試并不能給出這個保證,這需要形式驗證(formal verification)。

對于formal verification,ScienceDirect給出的解釋為:

the process of mathematically checking that the behavior of a system, described using a formal model, satisfies a given property, also described using a formal model

指的是從數學上檢查,使用形式模型描述的系統行為,是否滿足給定屬性的過程。

簡單來說就是,利用數學分析的方法,通過算法引擎建立模型,對待測設計的狀態空間進行窮盡分析的驗證。

圖片

形式化軟件驗證,對于軟件工程師來說是最具挑戰性的任務之一。例如CompCert,使用Coq交互式定理證明器驗證的C編譯器,是無處不在的GCC和LLVM等使用的唯一編譯器。

然而,手動形式驗證(編寫證明)的成本卻相當巨大,——C編譯器的證明是編譯器代碼本身的三倍以上。

所以,形式驗證本身是一項“勞動密集型”的任務,研究人員也在探索自動化的方法。

比如Coq和Isabelle等證明助手,通過訓練一個模型來一次預測一個證明步驟,并使用模型搜索可能的證明空間。

而本文的Baldur首次在這個領域引入了大語言模型的能力,在自然語言文本和代碼上訓練,并在證明上進行微調,

Baldur可以一次就生成定理的完整證明,而不是一次一個步驟。

圖片

如上圖所示,僅使用定理語句作為證明生成模型的輸入,然后從模型中抽取證明嘗試,并使用Isabelle執行證明檢查。

如果Isabelle接受了證明嘗試而沒有錯誤,就說明證明成功;否則從證明生成模型中抽取另一個證明嘗試。

Baldur在6336個Isabelle/HOL定理及其證明的基準上進行評估,從經驗上證明了完整證明生成、修復和添加上下文的有效性。

另外,這個工具之所以叫Baldur,可能是因為當前最好的自動證明生成工具叫做Thor。

Thor的證明率更高(57%),它使用較小的語言模型結合搜索可能證明空間的方法預測證明的下一步,而Baldur的優勢在于它能夠生成完整的證明。

圖片

不過Thor和Baldur兩兄弟也可以一起工作,這樣可能把證明率提升到接近66%。

自動生成完整證明

Baldur由Google的大語言模型Minerva提供支持,Minerva在科學論文和包含數學表達式的網頁上進行訓練,并對有關證明和定理的數據進行了微調。

Baldur可以與定理證明助手Isabelle合作,Isabelle對證明結果進行檢查。當給定一個定理陳述時,Baldur幾乎在41%的時間內能夠生成一個完整的證明。

圖片

為了進一步提高Baldur的性能,研究人員向模型提供了額外的上下文信息(比如其他定義、或理論文件中的定理陳述),這使證明率提高到47.5%。

這意味著Baldur能夠獲取上下文,并使用它來預測新的正確證明,——類似于程序員,當了解了相關方法和代碼之后,他們更有可能修復程序中的錯誤。

圖片

下面舉個例子(fun_sum_commute定理):

圖片

這個定理來自形式證明檔案中一個名為多項式的項目。

當人工編寫證明的時候,會區分兩種情況:集合是有限的或者不是有限的:

圖片

所以,對于模型來說,輸入是定理陳述,而目標輸出是這個人工編寫的證明。

Baldur認識到這里需要歸納,并應用了一種特殊的歸納法則,稱為infinite_finite_induct,遵循與人類書面證明相同的總體方法,但更簡潔。

而因為需要歸納,Isabelle使用的Sledgehammer默認無法證明這個定理。

訓練

為了訓練證明生成模型,研究人員構建了一個新的證明生成數據集。

現有數據集包含單個證明步驟的示例,每個訓練示例包括證明狀態(輸入)和要應用的下一個證明步驟(目標)。

給定一個包含單個證明步驟的數據集,這里需要創建一個新數據集,以便訓練模型一次預測整個證明。

研究人員從數據集中提取每個定理的證明步驟,并將它們連接起來以重建原始證明。

證明修復

還是以上面的fun_sum_commute為例,

圖片

Baldur首次生成的證明嘗試,在證明檢查器中失敗。

Baldur試圖應用歸納法,但未能首先將證明分解為兩種情況(有限集與無限集)。Isabelle返回以下錯誤消息:

圖片

為了從這些字符串中派生出一個證明修復訓練示例,這里將定理陳述、失敗的證明嘗試和錯誤消息連接起來作為輸入,并使用正確的人工編寫的證明作為目標。

圖片

上圖詳細介紹了訓練數據的創建過程。

使用證明生成模型,針對原始訓練集中的每個問題,對溫度為0的證明進行采樣。

使用校對助手,記錄所有失敗的校樣及其錯誤消息,然后,繼續構建新的證明修復訓練集。

對于每個原始訓練示例,將定理語句、證明生成模型生成的(不正確的)候選證明以及相應的錯誤消息連接起來,以獲得新訓練示例的輸入序列。

添加上下文

在定理陳述之前添加理論文件的行,作為額外的上下文。比如下圖這樣:

圖片

Baldur中帶有上下文的證明生成模型,可以利用這些附加信息。出現在fun_sum_commute定理語句中的字符串,在這個上下文中再次出現,因此圍繞它們的附加信息可以幫助模型做出更好的預測。

上下文可以是陳述(定理、定義、證明),還可以是自然語言注釋。

為了利用LLM的可用輸入長度,研究人員首先從同一個理論文件中添加多達50個語句。

在訓練過程中,首先對所有這些語句進行標記化,然后截斷序列的左側以適應輸入長度。

圖片

上圖展示了有上下文和無上下文的生成模型的證明成功率與證明嘗試次數的關系圖。我們可以看出,具有上下文的證明生成模型始終優于普通生成模型。

圖片

上圖展示了不同尺寸和溫度模型的已驗證定理與推理成本之比。

我們可以看到生成模型的證明成功率,以及8B模型和62B模型的上下文與證明嘗試次數的關系。

具有上下文的62B證明生成模型優于具有上下文的8B模型。

不過,作者在這里強調,由于這些實驗的成本較高,他們也無法調整超參數,62B模型如果經過優化可能會表現得更好。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-31 13:04:00

AI數據

2023-10-10 12:30:51

AI模型

2023-10-10 13:51:46

GPT-4GitHubAI

2023-10-28 13:18:05

AI工具

2024-10-14 14:31:36

2023-12-16 12:47:59

2023-03-09 09:14:51

ChatGPTAI

2024-12-09 09:35:00

AI數據訓練

2025-06-03 08:15:00

2024-04-23 13:39:39

2023-12-16 09:42:12

2024-10-12 12:30:04

2023-10-04 08:07:06

CopilotGitHub

2023-08-16 17:53:53

論文AI

2025-05-21 09:10:00

AI代碼陶哲軒

2022-10-25 10:20:31

線程變量原理

2024-07-29 08:49:00

AI數學

2023-09-02 11:21:54

代碼ChatGPT

2024-04-03 10:05:00

LLM性能基準測試

2023-09-04 13:16:00

人工智能模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品免费在线 | 久久国产亚洲 | 精品中文字幕在线观看 | 国产日韩一区 | 国产精品色 | 国产亚洲一区二区三区 | 一级黄色片网址 | 一区二区三区四区在线播放 | 91热在线 | 成人精品一区亚洲午夜久久久 | 日韩福利一区 | 亚洲精品中文字幕av | 欧美8一10sex性hd | 亚洲婷婷一区 | 精品国产久 | 国产偷录视频叫床高潮对白 | 桃色五月 | wwwxxx日本在线观看 | 自拍第1页| 一区二区三区四区免费在线观看 | 99热精品国产 | 成人日b视频 | 日韩伦理电影免费在线观看 | 精品视频久久久 | 久久成人免费视频 | 亚洲精品日韩综合观看成人91 | 久久免费精彩视频 | 国产99久久精品一区二区永久免费 | 亚洲嫩草 | 成人黄色av网站 | 91精品麻豆日日躁夜夜躁 | 久草视频观看 | 精品国产精品三级精品av网址 | 日韩精品在线看 | 日本特黄a级高清免费大片 特黄色一级毛片 | 国产免费观看一级国产 | 成人日韩av | 成人在线视频免费观看 | 无码一区二区三区视频 | 中文字幕视频一区二区 | 91麻豆精品国产91久久久更新资源速度超快 |