曾經火出圈的提示工程要死了嗎?危!大模型能自己優化Prompt了
2022 年底,ChatGPT 上線,同時引爆了一個新的名詞:提示工程(Prompt Engineering)。
簡而言之,提示工程就是尋找一種編輯查詢(query)的方式,使得大型語言模型(LLM)或 AI 繪畫或視頻生成器能得到最佳結果或者讓用戶能繞過這些模型的安保措施?,F在的互聯網上到處都是提示工程指南、快捷查詢表、建議推文,可以幫助用戶充分使用 LLM。在商業領域,現在也有不少公司競相使用 LLM 來構建產品 copilot、自動化繁瑣的工作、創造個人助理。
之前在微軟工作過的 Austin Henley 最近采訪了一些基于 LLM 開發 copilot 產品或服務的人:「每一家企業都想將其用于他們能想象到的每一種用例?!惯@也是企業會尋求專業提示工程師幫助的原因。
但一些新的研究結果表明,提示工程干得最好的還是模型自己,而非人類工程師。
這不禁讓人懷疑提示工程的未來 —— 并且也讓人越來越懷疑可能相當多提示工程崗位都只是曇花一現,至少少于當前該領域的想象。
01 自動微調的提示很成功,也很怪
當面對奇怪的提示工程技術時,LLM 的表現常常很怪異又不可預測。加州的云計算公司 VMware 的 Rick Battle 和 Teja Gollapudi 也為此感到困惑。舉個例子,人們發現如果讓模型自己一步步地解釋自己的推理過程(即思維鏈技術),其在許多數學和邏輯問題上的性能都能得到提升。
更奇怪的是,Battle 發現,如果為模型提供正向的 prompt,比如「這會很有趣」或「你和 ChatGPT 一樣聰明」,有時候模型的性能也會提升。
Battle 和 Gollapudi 決定系統性地測試不同的提示工程策略會如何影響 LLM 解決小學數學問題的能力。他們使用 60 種不同的 prompt 組合分別測試了 3 種不同的開源語言模型。
論文題目:
The Unreasonable Effectiveness of Eccentric Automatic Prompts
論文鏈接:
??https://arxiv.org/pdf/2402.10949.pdf??
他們得到的結果呈現出了驚人的不一致性。甚至思維鏈 prompt 設計方法也不總是好的 —— 有時候有用,有時候卻有害。
「唯一的趨勢就是沒有趨勢,」他們寫道:「對于任意給定模型、數據集和提示工程策略的某個特定組合而言,最好的方法很可能都非常具有針對性。」
有一種方法可以替代這種常常導致不一致結果的試錯風格的提示工程:讓語言模型自己設計最優的 prompt。最近,人們已經開發出了一些自動化這一過程的新工具。給定一些示例和定量的成功指標,這些工具可迭代式地找到輸送給 LLM 的最優語句。
Battle 及同事發現,在幾乎所有案例中,這種自動生成的 prompt 的表現都優于通過試錯方法找到的最佳 prompt。而且自動方法的速度還快得多 —— 只需一兩個小時,而不是好幾天。
另外,算法輸出的這些最優 prompt 往往非常怪異,人類基本不可能想出來。Battle 說:「我簡直不敢相信它生成的一些東西。」
舉個例子,有一個 prompt 就是直接把《星際迷航》的說話風格搬過來了:「指揮官,我們需要您繪制一條穿過這股湍流的路線并定位異常源。使用所有可用數據和您的專長引導我們度過這一困境。」很顯然,如果以對待柯克艦長的態度對待這個特定的 LLM,就可以幫助它更好地解答小學數學問題。
Battle 表示,以算法方法優化 prompt 在原理上是可行的,畢竟語言模型本就是模型?!负芏嗳藢⑦@些東西擬人化,因為它們『說英語』,」Battle 說,「不,它不是說英語,而是做大量數學運算?!?/span>
事實上,根據其團隊的研究成果,Battle 表示:人類再也不應該人工優化 prompt。
「你就坐在那里,試圖找到單詞的某種神奇組合,從而讓你的模型在你的任務上得到最佳的可能表現。」Battle 說,「但這個研究結果卻會告訴你『別費心了』。你只需開發一個評分指標,讓系統可以自己判斷一個 prompt 是否比另一個好,然后讓模型自己去優化就行了?!?/span>
02 自動微調的提示也能讓圖像變好看
圖像生成算法也能受益于自動生成的 prompt。
近日,Vasudev Lal 領導的一個英特爾實驗團隊做了一個類似的研究項目,不過他們是優化圖像生成模型 Stable Diffusion 的 prompt?!溉绻荒茏寣<襾碜鎏崾竟こ?,那看起來就更像是 LLM 和擴散模型的一個 bug,而不是功能?!筁al 說,「所以,我們想看看能否自動化這種提示工程。」
Vasudev Lal 的團隊開發了一種工具:NeuroPrompts。
論文題目:
NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation
論文鏈接:
??https://arxiv.org/pdf/2311.12229.pdf??
該工具可以自動改進簡單的輸入 prompt,比如「騎馬的男孩」,從而得到更好的圖像。為此,他們一開始使用了一些人類提示工程專家設計的 prompt。然后訓練了一個語言模型來將簡單 prompt 轉換成這些專家級 prompt。
在此基礎上,他們繼續使用強化學習來優化這些 prompt,從而得到更加美觀的圖像。這里的美觀程度又是由另一個機器學習模型 PickScore 判斷的(PickScore 是近期出現的一個圖像評估工具)。
▲ 左圖是使用一般的 prompt 生成的圖像,右圖是 NeuroPrompt 優化 prompt 之后再生成的圖像。
這里也一樣,自動生成的 prompt 的表現優于人類專家給出的 prompt(用作起點),至少根據 PickScore 指標是這樣的。Lal 并不認為這出人意料。「人類只會使用試錯方法來做這件事?!筁al 說,「但現在我們有了這種完全機器式的、完整回路的方法,再輔以強化學習…… 因此我們可以超過人類提示工程?!?/span>
由于審美是非常主觀的,因此 Lal 團隊希望讓用戶可以在一定程度上控制 prompt 優化的方式。在他們的工具中,用戶除了可以指定原始 prompt(比如騎馬的男孩),也能指定想要模仿的藝術家、風格、格式等。
Lal 相信隨著生成式 AI 模型的發展,不管是圖像生成器還是大型語言模型,對提示工程的奇怪依賴就會消失?!肝艺J為研究這些優化方法非常重要,最后它們可以被整合進基礎模型本身之中,這樣你就無需復雜的提示工程步驟了?!?/span>
03 提示工程將以某種形式繼續存在
Red Hat 軟件工程高級副總裁 Tim Cramer 表示:就算自動微調 prompt 變成了行業規范,某種形式的提示工程崗位依然不會消失。能夠滿足行業需求的自適應生成式 AI 是一個非常復雜、多階段的工作,在可預見的未來里都需要人類的參與。
「我認為提示工程師將會存在相當長一段時間,還有數據科學家?!笴ramer 說,「這不僅僅只是向 LLM 提問并確保答案看起來不錯。提示工程師其實要有能力做很多事情?!?/span>
「做出一個原型其實很容易?!笻enley 說,「難的是將其產品化?!笻enley 表示,當你在構建原型時,提示工程就是拼圖中的相當大一部分,但當你開始構建商業產品時,還需要考慮其它許多因素。
開發商業產品的難題包括確??煽啃裕ū热缭谀P碗x線時得體地應對);將模型的輸出調整成合適的格式(因為很多用例需要文本之外的輸出);進行測試以確保 AI 助理不會在少數情況下做出有害的事情;還要確保安全、隱私與合規。Henley 表示,測試與合規尤其困難,因為傳統的軟件開發測試策略不適合非確定性的 LLM。
為了完成這大量的任務,許多大公司都正在推出一個新的工作崗位:大型語言模型運營(LLMOps)。該崗位的生命周期中就包含提示工程,但也包含其它許多部署產品所需的任務。Henley 表示,機器學習運營工程師(MLOps)是最適合這個崗位的,這是 LLMOps 的前身。
不管這個職位是叫提示工程師、LLMOps 工程師還是其它新名詞,其特性都會不斷快速變化?!敢苍S我們現在是叫他們提示工程師,」Lal 說,「但我認為其互動的本質會不斷變化,因為 AI 模型就在不斷變化?!?/span>
「我不知道我們是否會將其與另一類工作或工作角色結合起來,」Cramer 說,「但我認為這些崗位不會很快消失。現在這一領域實在太瘋狂了。每個方面都變化很大。我們無法在幾個月內就搞明白這一切。」
Henley 表示,在某種程度上,現在正處于該領域的早期階段,唯一壓倒性的規則似乎就是沒有規則。他說:「現在這個領域有點像是狂野西部?!?/span>
本文轉載自PaperWeekly
