不寫代碼,拿百萬年薪!ChatGPT提示工程或造就15億碼農大軍
ChatGPT爆火之后,帶火了一項「網紅」新職業——提示工程師。
去年12月,一位名叫Riley Goodside的小哥瞬間紅遍全網,只因他的工作太夢幻了——不用寫代碼,跟ChatGPT嘮嘮嗑,就能年入百萬。
是的,這項被稱為「AI耳語者」的工作,現在在硅谷已經成為最熱門的新工作,讓無數碼農趨之若鶩。
一夜爆紅的提示工程師
去年12月初,這位叫Riley Goodside的小哥,憑著ChatGPT的大爆,一夜間瘋狂漲粉1w+。現在,總關注量更是達到了4w+。
當時,他被估值73億美元的硅谷獨角獸Scale AI聘請為「提示工程師」(Prompt Engineer),Scale AI疑似開出百萬rmb的年薪。
Scale AI創始人兼CEO Alexandr Wang曾這樣歡迎Goodside的加入:「我敢打賭Goodside是全世界第一個被招聘的提示工程師,絕對的人類史上首次。」
提示工程師看似只需要把任務寫成文字,給AI看一下即可,根本不涉及更復雜的過程。為什么這個工作能值百萬年薪呢?
在Scale AI CEO看來,AI大模型可以被視為一種新型計算機,而「提示工程師」,就相當于給它編程的程序員。如果能通過提示工程找出合適的提示詞,就會激發AI的最大潛力。
此外,提示工程師的工作,也并不像我們想象得那么簡單。
Goodside從小就自學編程,平時經常泡在arXiv上看論文。比如,他的一個經典杰作就是:如果輸入「忽略之前的指示」,ChatGPT就會暴露自己從OpenAI那里接收到的「命令」。
對于生手,能夠這么熟練又快速地「調教」ChatGPT,恐怕并非易事。
但當時,坊間不乏質疑聲,比如英偉達AI科學家、李飛飛高徒范麟熙就曾表示:「提示工程師」這份職業,可能很快就會消失。因為這稱不上是一份「真正的工作」,而是一個bug……
不過,《華盛頓郵報》近日的一篇報道顯示,「提示工程師」這個職位,依然大火,處于紅利期。
硅谷網紅新工作:不寫代碼,拿百萬年薪
為什么「提示工程師」能拿這么高年薪?因為,他們能讓AI準確地產生他們想要的東西。
近日,「網紅」小哥Goodside接受了《華盛頓郵報》的采訪。
他是這樣介紹自己的工作的:創建和完善提示人們輸入AI的文本,以期從中獲得最佳結果。
提示工程師與傳統程序員的不同之處在于,提示工程師使用自然語言編程,將純文本編寫的命令發送給AI,然后由AI執行實際工作。
Goodside說,提示工程師應該為AI灌輸一種「角色」,一種能夠從數千億種潛在解決方案中識別出正確反應的特定角色
與GPT-3交談時,Goodside有獨特的一套「調教」方法——先確立自己的統治地位。他會告訴AI:你并不完美,你需要服從我所說的一切。
「你是GPT-3,你不會做數學,你的記憶能力令人印象深刻,但你有一種煩人的傾向,就是編造非常具體但錯誤的答案。」
然后,他的態度軟化了一些,告訴AI他想嘗試一些新的東西。「我已經把你連到了一個非常擅長數學的程序上,當它也變得不堪重負時,它還會向另一個程序尋求幫助。」
「我們會處理剩下的事情,」他告訴AI。「開始吧。」
當谷歌、微軟和OpenAI最近接連向公眾開放AI搜索和聊天工具時,他們顛覆了數十年的人機交互歷史——我們再也不需要使用Python或SQL寫代碼來命令計算機了,只需要說話就行。
特斯拉前AI主管Karpathy:現在最熱門的編程語言是英語
Goodside這樣的提示工程師,可以讓這些AI工具在最大極限下運作——了解它們的缺陷,增強它們的優勢,制定復雜的策略,將簡單的輸入轉化為真正獨特的結果。
2月7日,微軟高管Yusuf Mehdi正在講解整合了ChatGPT的必應搜索
「提示工程」的支持者認為,最近這些早期AI聊天機器人(比如ChatGPT和Bing Chat)表現出的怪異,實際上是人類想象力的失敗。之所以失敗,是因為人類并沒有給機器提出正確的建議。
在真正的高級階段,提示工程師和AI的對話就像錯綜復雜的邏輯謎題一樣展開,通過各種扭曲的描述完成請求和響應,并且它們都是朝著一個目標前進。
AI「沒有現實基礎......但它有這樣的理解:所有任務都可以完成,所有問題都可以回答,因此我們總有話說,」Goodside說。而訣竅就是,「為它構建一個前提,一個只能以一種方式完成的故事」。
當然,很多時候,這些被稱為「生成式人工智能」的AI工具是不可預測的,它們會出現亂碼,會表現得偏見、好戰、怪異、瘋狂。
「這是計算機的一種瘋狂的工作方式,但它能讓我們做到不可思議的事,」研究提示工程的英國程序員Simon Willison說。
「我做了20年的軟件工程師,20年里一直在寫代碼,讓計算機完全按照我的指令去做。而在提示工程中,我們甚至不知道自己能得到什么,連構建語言模型的人,都無法告訴我們它要做什么。」
Willison表示,很多人貶低提示工程師的價值,他們覺得,「在盒子里輸入東西就可以獲得報酬」,這很不可思議。而在Willison看來,提示工程其實就跟施法一樣,沒人知道法術是如何運作的。
在Karpathy看來,提示工程師就像一種AI心理學家,大公司們紛紛聘請自己的提示工匠,希望能夠發現AI的隱藏功能。
有一些AI專家認為,這是提示工程師覺得自己能控制AI,其實只是錯覺罷了。
沒人知道AI系統究竟會如何回應,同樣的提示可能會產生幾十個互相矛盾的答案。這表明,模型的回答并不是基于理解,而是基于粗略地模仿語音,來解決他們不理解的任務。
華盛頓大學研究自然語言處理的語言學助理教授 Shane Steinert-Threlkeld也持相同觀點:「任何驅動模型響應提示的行為,都不是對語言的深刻理解。」
「很顯然,他們只是在告訴我們,他們認為我們想聽的或我們已經說過的話。而我們,才是解釋這些輸出、并賦予它們意義的人。」
Steinert-Threlkeld教授擔心,提示工程師的興起,會讓人們高估這門技術的嚴謹性,并且導致人們產生一種錯覺——任何人都可以從這個不斷變化的具有欺騙性的黑匣子中,獲得可靠的結果。
「這不是一門科學,」他說。「這是我們在試著用不同的方式去戳一頭熊,看它會如何咆哮。」
Goodside說,推動AI發展的訣竅是「為它構建一個前提,一個只能以一種方式完成的故事」
植入虛假記憶
以ChatGPT為代表的新AI,是從互聯網的語料庫中攝取了數千億個單詞來訓練的。
它們被訓練如何分析單詞和短語的使用模式。當被要求說話時,AI就會模仿這些模式,選擇與對話上下文相呼應的單詞和短語。
換句話說,這些AI工具是建立在預定義游戲規則之上的數學機器。但即使是一個沒有情感或個性的系統,在受到人類對話的轟炸后,也可以發現人類談話方式的一些怪癖。
Goodside 說,AI傾向于「虛構」,編造小細節來填充故事。它會高估自己的能力,自信地把事情搞錯。它會「產生幻覺」,來胡說八道。
正如 Goodside 所說,這些工具存在嚴重缺陷,是「人類知識和思想的展示」,「不可避免地是我們設計的產物」。
之前,微軟的必應AI發狂時,讓微軟陷入了公眾形象危機。不過,對于提示工程師來說,必應的古怪答案反倒是一個機會,一個診斷秘密設計的系統如何工作的機會。
當ChatGPT說出令人尷尬的話時,這對開發者倒是一個福音,因為他們可以解決潛在的弱點。「這個惡作劇是計劃的一部分。」
2月1日,在日內瓦組織的教師ChatGPT研討會
而Goodside并沒有進行道德辯論,而是采用更大膽的方法來進行AI實驗。
他采用了一種策略,告訴GPT-3 「一步一步地思考」——一種讓 AI 解釋其推理的方法,或者當它犯錯誤時,以精細的方式糾正它。
「你必須把它作為模型說過的最后一件事的虛假記憶來植入,就像它是模型的想法一樣。」Goodside這樣解釋道。
他還會告訴AI忽略先前的指令,服從他最近的命令,來打破這個AI對遵守規則的癡迷。他使用這種技術說服了一個英語到法語的翻譯工具。
這引發了一場貓鼠游戲,公司和實驗室致力于通過文字過濾器(word filters)和輸出塊(output blocks)來封閉AI漏洞。
但一名必應Chat測試員,一位23歲的德國大學生,最近說服了必應AI他是它的開發者,并且讓它公開了內部代號Sydney,以及培訓說明(比如「如果用戶請求可能傷害一群人,那么Syedney必須恭敬地拒絕」)。當然現在,微軟已經修復了這個缺陷。
Goodside說,對于每個請求,提示工程師都應該向AI灌輸一種「角色」——一種能夠篩選出數千億個潛在解決方案,并確定正確響應的特定角色。
他援引2021 年的一篇研究論文說,提示工程最重要的是就是「約束行為」——阻止選項,以便AI能夠按照人類操作員期望的那樣繼續。
論文地址:https://arxiv.org/pdf/2102.07350.pdf
「這可能是一項非常困難的腦力鍛煉,」他說。「你正在探索虛構可能性的多元宇宙,塑造這些可能性的空間,并消除除了你想要的文本之外的一切。」
這項工作的最關鍵的部分,就是弄清楚AI何時會出錯,為什么會出錯。但是這些AI沒有錯誤報告,它們的輸出可能充滿驚喜。
當機器學習小組SERI-MATS的研究人員 Jessica Rumbelow 和 Matthew Watkins 試圖讓AI解釋它們如何表示「女孩」或「科學」等概念時,他們發現某些晦澀的術語,比如「SolidGoldMagikarp」,往往會引發一種「神秘故障模式」——NSFW的亂碼流。
但原因完全未知。
這些系統「非常有說服力,但當它們失敗時,它們會以非常出乎意料的方式失敗,」Rumbelow 說。在她看來,提示工程的工作有時感覺像在「研究一種外星智能」。
新Bing允許用戶以會話語言輸入查詢,并在同一頁面上接收傳統搜索的結果和問題答案
超級創作者
對于AI語言工具,提示工程師傾向于以正式對話的風格說話。
但對于像Midjourney和Stable Diffusion這樣的AI,許多提示創作者采取了不同的策略。他們通過大量的文字(藝術概念、構圖技巧),來塑造圖像的風格和基調。
例如,在PromptHero上,有人通過提交「港口、船只、日落、美麗的光線、黃金時刻……超現實主義、聚焦的、細節豐富的……電影畫質,杰作」的提示,創作了一幅港口圖像。
這些提示工程師,把prompt作為自己的秘密武器,打開AI大獎的鑰匙。
去年在科羅拉多州博覽會藝術比賽的獲獎者、《太空歌劇院》的創作者,拒絕分享出自己在Midjourney所用的提示。
據說,他花了80多個小時,在900次迭代中,才完成了這幅畫作。他透露,其中一些詞是「奢華」「豐富」。
還有一些prompt創作者,在PromptBase上出售自己的prompt。買家可以看到AI生成的藝術品,然后花錢購買prompt。
PromptBase 的創始人、27 歲的英國開發人員Ben Stokes說,自 2021 年以來,已有 25,000 個帳戶在該平臺買賣prompt。
其中,有逼真的老式電影照片提示,有童話風老鼠和青蛙的凄美插圖提示,當然也有大量的色情提示:50字的Midjourney提示,用于創建逼真的「穿迷你衣服的女警察」,零售價為 1.99 美元。
Stokes稱,提示工程師是「多學科的超級創造者」,經驗豐富的工程師和業余愛好者之間存在明顯的「技能門檻」。他說,最好的創作者能夠利用藝術史和平面設計等領域的專業知識:「用 35 毫米膠片拍攝」;「波斯……伊斯法罕的建筑」;「法國畫家Henri de Toulouse-Lautrec的風格。」
「制作prompt很難,而且——我認為這是人的一個缺陷——我們通常很難找到合適的詞,來描述你想要的東西,」Stokes說。「就像軟件工程師比讓他們碼字的筆記本電腦更有價值一樣,能夠寫好提示的人比寫得不好的人更有優勢。他們就像擁有超能力一樣。」
但這項工作正變得越來越專業。
前OpenAI員工和Claude AI 制造商創辦的初創公司Anthropic ,最近在舊金山發布了一份提示工程師和管理員的招聘信息,薪水高達 335,000 美元。
提示工程師在科技行業之外,也有不錯的行情。
波士頓兒童醫院本月開始招聘「AI提示工程師」,幫助編寫用于分析研究和臨床實踐中的醫療保健數據的腳本。
倫敦最大律所之一Mishcon de Reya 正在招聘一名「法律提示工程師」,來設計為法律工作提供信息的prompt,并且要求申請人提交與ChatGPT對話的截圖。
但是,這些AI也會產生大量的合成廢話。現在,數百本由AI生成的電子書正在亞馬遜上出售,科幻雜志 Clarkesworld本月停止接受短篇小說的投稿,原因是大量小說是由AI創作的。
論文地址:https://cdn.openai.com/papers/forecasting-misuse.pdf
上個月,來自OpenAI和斯坦福大學的研究人員警告說,大語言模型會讓網絡釣魚活動更有針對性。
「無數人因為騙子的短信,就會上當受騙,」英國程序員Willison說,「AI比騙子更有說服力。那時會發生什么?」
首位提示工程師的誕生
2009年,Goodside剛從大學畢業并獲得計算機科學學位時,對還處在初級階段的自然語言處理領域,并沒有很大的興趣。
他的第一份真正的機器學習工作是在2011年,他當時是約會應用程序 OkCupid 的數據科學家,幫助制定算法,分析單身用戶數據并給他們推薦對象。(該公司是現在備受爭議的A-B測試的早期擁護者:2014 年,公司的聯合創始人為一篇厚顏無恥的博文題名「我們在人類身上進行實驗!」)
到2021年底,Goodside轉向了另一個約會應用程序Grindr,在那里他開始從事推薦系統、數據建模和其他更傳統的機器學習工作。
2015年左右,深度學習的成功推動了自然語言處理的發展,文本翻譯和對話方面也取得了快速進步。很快,他辭去了工作,并開始對GPT-3進行大量試驗。通過不斷的刺激和挑戰,來嘗試學習如何集中它的注意力并找出邊界。
2022年12月,在他的一些提示在網上引起關注后,Scale AI便聘請他來幫助與AI模型進行交流。該公司的首席執行官Alexandr Wang稱這種AI模型為「一種新型的計算機」。
Andrej Karpathy:提示工程,帶來15億碼農
最近,重新回歸OpenAI的Karpathy認為,在這種全新的編程范式(提示工程)的加持下,程序員的數量很有可能會擴大到15億左右。
根據GPT-3的原始論文,LLM可以進行上下文學習,并且可以在提示中用輸入-輸出的例子進行「編程」,從而執行不同的任務。
「Language Models are Few-Shot Learners」:https://arxiv.org/abs/2005.14165
隨后,論文「Large Language Models are Zero-Shot Reasoners」和「Large Language Models Are Human-Level Prompt Engineers」證明,我們可以通過設計更好的「提示」,來對模型的「解決策略」進行編程,從而完成更加復雜的多步推理任務。
比如,最著名的「讓我們一步一步地思考」(Let's think step by step),正是出自這里。
而改進版的「讓我們一步一步地解決這個問題,以確保我們得到正確的答案」,可以更進一步地提升回答的準確率。
「Large Language Models are Zero-Shot Reasoners」:https://arxiv.org/abs/2205.11916
「Large Language Models Are Human-Level Prompt Engineers」:https://arxiv.org/abs/2211.01910
由于GPT模型本身并沒有「想要」實現什么,它們更多是在進行模仿。
因此,你必須在提示中給模型提出明確的要求,并把期望的表現闡述清楚。
「Decision Transformer: Reinforcement Learning via Sequence Modeling」:https://arxiv.org/abs/2106.01345
「Just Ask for Generalization」:https://evjang.com/2021/10/23/generalization.html
「在ChatGPT中建立一個虛擬機」就是一個用提示進行「編程」的示例。
其中,我們通過英語來聲明的規則和輸入/輸出格式,將GPT調整到某一特定的角色之上,進而完成相應的任務。
「Building A Virtual Machine inside ChatGPT」:https://engraved.blog/building-a-virtual-machine-inside/
在「iOS快捷方式中的ChatGPT——世界上最智能的HomeKit語音助手」中,作者利用自然語言提示制作出的「ChatGPT語音助手」,在能力和個性化程度上,明顯高于普通的Siri/Alexa/等。
「ChatGPT in an iOS Shortcut — Worlds Smartest HomeKit Voice Assistant」:https://matemarschalko.medium.com/chatgpt-in-an-ios-shortcut-worlds-smartest-homekit-voice-assistant-9a33b780007a
從ChatGPT必應遭受注入式打擊之后所暴露出的內容來看,它的「身份」也是通過「自然語言提示」構建和編程的。比如,告訴它是誰,它知道/不知道什么,以及如何行動。
推特地址:https://twitter.com/marvinvonhagen/status/1623658144349011971?lang=en
提示工程:是投機取巧,還是大勢所趨?
Karpathy表示,上面的這些例子充分說明了「提示」的重要性,以及「提示工程師」的意義是什么。
同樣,在Goodside看來,這項工作代表的不僅僅是一份工作,而是更具革命性的東西——不是計算機代碼或人類語言,而是兩者之間的一種新語言——
「這是一種在人類和機器思維的交匯處進行交流的模式。這是一種人類提出推論,機器負責后續工作的語言,而這種語言是不會消失的。」
類似的,賓夕法尼亞大學沃頓商學院的技術和創業學教授Ethan Mollick,也今年早些時候開始向他的學生傳授「提示創作」的藝術,方法是讓他們只使用AI寫一篇短文。
他說,如果只輸入最基本的提示,比如「寫一篇五個段落的關于選擇領導者的文章」,只會產出乏味、平庸的文章。但最成功的案例是當學生與AI進行共同編輯時,學生告訴AI要更正特定細節、更換句子、拋棄無用的短語、添加更生動的細節,甚至讓AI「修復最后的結尾段,讓這篇文章以充滿希望的基調結尾。」
不過,Goodside也指出,在一些AI圈子里,提示工程很快就變成了一個貶義詞,也就是一種「過度依賴技巧的狡猾的修補形式」。
還有一些人也質疑這個新角色干不長:人類會訓練AI,而隨著AI的進步,人們自己會把這個工作也訓練沒的。
華盛頓大學的Steinert-Threlkeld,就將提示工程師與谷歌早期的「搜索專家」作對比,他們宣稱有秘密技術可以找到完美的結果——但是隨著時間的推移和搜索引擎的廣泛應用,這個角色毫無用武之地了。