成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

面向大語言模型的控制理論 原創

發布于 2024-4-24 14:44
瀏覽
0收藏

大型語言模型(LLMs)越來越多地被用作軟件系統的組成部分。我們生活在一個世界里,你可以從你友好的鄰居雪佛蘭汽車銷售機器人那里得到計算流體力學的幫助。你可以要求LLM執行自動文獻回顧。你甚至可以用它們來模擬軍事戰略。

隨著像GPT-4、Claude和Gemini這樣的前沿語言模型的零樣本能力不斷增強,我們已經看到“LLM驅動”的軟件系統的大量涌現。看起來我們很快就能夠通過提示一個極其聰明的模型來構建超能力的AI系統和代理!

另一方面,LLMs極其難以預測。微小的提示轉變會導致完全不同的性能。更糟糕的是,Yann Lecun表示,LLMs是“指數發散的隨機過程”,這對于我們那些假設使用LLMs構建AGI的人來說是很艱難的。

控制理論可以幫助我們突破障礙,從而能夠構建基于LLM的超能力系統控制理論中關于可達性、可控性和穩定性的概念很容易應用于LLM系統。此外,控制理論的視角自然而然地導致了各種可行的、基礎性的問題,可以使用經驗和分析方法來解決。

本文集中討論追求LLM控制理論的動機。

面向大語言模型的控制理論 -AI.x社區

我們當前如何理解LLM的能力?

目前,研究和增強LLM能力主要圍繞零樣本和少樣本基準展開。為了證明一種技術的實用性,LLM研究人員經常根據像HellaSwag, MMLU, TruthfulQA, MATH等創意命名的基準來衡量成功。這些基準旨在衡量LLM在回答知識、推理和數學問題方面的表現。基準是了解模型的有用工具,但它們未能考慮基于LLM的軟件系統的動態性。LLM系統設計者(即提示工程師)會圍繞LLM構建軟件以實現某個目標(例如,教學生、銷售汽車、審查工作申請、進行研究等)。軟件與LLM之間的交互會產生非平凡的動態,因為LLM根據當前狀態(上下文)生成文本,影響軟件,軟件進而通過修改LLM的狀態影響后續的生成。

目前,LLM系統設計和提示工程是高度經驗性的。我們缺乏關于這些更動態的LLM系統如何行動的指導原則和理論,特別是當我們對輸入具有部分控制(例如,我們直接控制系統提示)但對一些強加的標記(例如,用戶輸入或來自工具的程序化反饋)控制不完整時。鑒于可控提示標記的有限預算和一些強加狀態標記,是否存在一種控制輸入,即存在一個控制輸入序列,對于每個狀態,它將LLM引導到從初始狀態序列輸出的某個所需輸出?如果沒有,是否存在一些結構決定了哪些輸出是可達的?我們能否從零樣本提示的角度找到語言模型可控性的模式?這正是我們試圖在我們的論文中回答的問題。

LLM控制理論概述

以控制理論的語言思考對LLM系統開發中自然產生的問題有了很多清晰的認識。控制理論研究如何使用“控制信號”來影響Plant系統朝著所需狀態發展,通常在存在干擾和不確定性的情況下。這正是我們構建基于LLM的系統時的目標。我們有一個奇怪的、有點不可預測的系統(LLM),我們必須構建一個程序控制器來引導它朝著實現某個目標的方向發展,通常在存在外部干擾的情況下(例如,不可預測的用戶輸入)。該系統具有內部狀態,并且受到某些外部輸入的影響(例如,用戶輸入、程序化工具如Web瀏覽器和終端)。狀態通過從LLM中抽樣新標記或接收外部輸入標記來更新。狀態的變化影響到未來狀態的更新,導致非平凡的動態。

控制理論通常以連續時間線性常微分方程(ODEs)的術語來教授。另一方面,LLM系統是以離散標記的可變長度字符串操作的,并且通常以隨機方式運行。研究人員強調了常規基于ODE的系統與基于LLM的系統之間的以下差異:

  • 離散狀態和時間:LLM系統在離散時間集合上操作離散標記序列,與古典控制理論中研究的連續狀態空間和時間集合形成對比。
  • 轉換與增長狀態動態:在基于ODE的系統中,系統狀態隨時間保持固定大小,而LLM系統的系統狀態會隨著標記添加到狀態序列而增長。
  • 控制輸入標記與生成標記的互斥:LLM系統狀態每次只寫入一個標記。最新的標記是從控制輸入中抽樣或由LLM通過抽樣生成的。這與傳統的離散隨機系統不同,傳統系統的控制序列和內部動態通常同步影響狀態。

盡管存在這些差異,但控制理論的數學機理仍然適用。研究人員從數學系統和控制理論的基本集合論基礎開始,開發了LLM的控制理論。這使我們能夠為基于LLM的系統正式化可達性、可控性、穩定性等概念。重要的是,我們的正式化足夠一般化,適用于具有各種增強功能的LLM系統,包括使用工具、用戶交互和思維鏈式推理方案。

面向大語言模型的控制理論 -AI.x社區

LLM控制理論中的開放問題

開發控制系統的方法是理解系統的一個很好的方式。令人興奮的是,控制理論的視角立即提出了一系列關于LLM系統性質的可處理的基本問題。以下是一些令人興奮的開放問題:

  • 鏈式思考的控制屬性:鏈式思考是一種強大的技術,其中LLMs被允許在問題和答案之間生成中間標記(即“思考”)。利用這些技術的系統的控制屬性(例如,穩定性、可達性)對于理解和構建現實世界中的LLM系統至關重要。
  • 分布式控制:我們如何通過操作提示來精確控制下一個標記的分布?我們是否可以將下一個標記的分布與任意所需分布之間的KL-散度強制為零?雖然我們的工作集中于操作概率分布的argmax(即最可能的下一個標記),但分布的可控性仍然不清楚。
  • 控制的可學習性:LLM能夠學習彼此控制的程度如何?大型語言模型是人類級別的提示工程師這篇論文表明 - 你猜對了 - LLM能夠進行人類級別的提示工程,但是LLM在明確優化于LLM控制目標時,LLM能否學會控制另一個LLM尚不清楚。
  • 可控子空間:在線性動態系統的控制中,已知不可控系統通常可以坐標轉換成一種表示,其中一部分坐標可控,一部分不可控。我們的分析結果顯示,自注意力頭自然地產生可控和不可控的組件。這是否可以推廣到具有非線性和殘差流的變壓器塊?
  • 可組合LLM系統:控制理論最大的好處之一是能夠將控制模塊和子系統組合成一個可解釋、可預測和有效的整體。LLM系統的組合(可能包括非LLM控制模塊)是一個擴展超智能系統的令人興奮的途徑。

譯自(有刪改):https://aman-bhargava.com/ai/2023/12/17/towards-a-control-theory-of-LLMs.html


本文轉載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/X3sRs2l58SdTo-omPtZGZA??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 中文字幕视频在线 | 色屁屁在线观看 | 成人中文字幕av | 一级在线观看 | 国产精品美女www爽爽爽视频 | 欧美精品久久久久久久久老牛影院 | 久久日韩精品一区二区三区 | 精品毛片 | 亚洲国产欧美在线人成 | 九色www | 国产高清精品一区二区三区 | 亚洲视频免费观看 | 欧美一级在线 | 人人人人人爽 | 日本午夜一区二区三区 | 99久久婷婷国产综合精品电影 | 日韩成人在线观看 | 久在草| 91久久精品一区二区二区 | 欧美视频第二页 | 一区二区三区影院 | 国产精品视频网 | 欧洲精品在线观看 | 欧美日韩高清一区 | 成人久久18免费网站 | 亚洲+变态+欧美+另类+精品 | 欧美一区二区黄 | 亚洲一区中文 | 中文字幕亚洲免费 | 日韩精品av一区二区三区 | 亚洲精品一区在线 | 国产一级在线视频 | 天天草天天| 国产一区免费视频 | 人人爽人人爽人人片av | 亚洲欧美日韩精品久久亚洲区 | 日韩在线播放一区 | 亚洲精品一区在线观看 | 在线看一区二区 | 亚洲欧洲成人av每日更新 | 国产免费拔擦拔擦8x高清 |