人工智能從思想走向行動
高盛最近的一份報告稱,除了聊天機器人和數字助理之外,缺乏生成式人工智能的“殺手級應用”,可能會阻礙其采用。分析師們寫道,GenAI需要的是能夠自行采取行動的人工智能應用程序。一種被稱為大型動作模型(Large Action Model,簡稱LAM)的新型模型開始嶄露頭角。
LAM概念于2023年底開始出現,作為大型語言模型(LLM)的自然后續,LLM因其可以生成類似人類的文本響應而引起了全世界的關注。LAM通過在軟件程序中實際執行一些操作,超越了LLM的文本生成功能。
位于美國弗吉尼亞的科技咨詢公司3Pillar的首席創新官Pankaj Chawla接受媒體采訪時表示:“LLM擅長于‘問題,回答’這樣的單向交流。”“但在那之后我該怎么辦呢?”這就是大型動作模型發揮魔力的地方。
Chawla表示,3Pillar正在為那些看到LLM價值的客戶打造LLM,這些客戶希望采取下一步行動,將重復性任務自動化,以獲得更高的投資回報。LAM使用現有的編程路徑(如API)執行操作,或者在某些情況下直接與應用程序的用戶界面交互,這類似于機器人過程自動化(RPA)。
例如,如果一位高管要出差,LAM可以根據人工指令做出反應:“為我查找10月10日至17日飛往意大利米蘭的經濟艙+航班和四星級酒店。”LAM不僅可以用建議回應請求,還可以導航必要的系統并調用必要的數據來確保預訂。
另一種看待LAMS的方式是,它是數字助理的延申。
Chawla表示:“在我看來,數字助理仍然是一種與人互動的東西,但你不會把多個事情拼湊在一起,共同實現一個結果,無論是商業結果還是個人結果。”“數字助理有點朝這個方向發展,但LAM是在創造一個自我學習的劇本,因為它不止一次地做這個動作,它會做得更好。”
并不是所有的公司都使用相同的術語。例如,Gartner將其稱為神經符號人工智能(neurosymbolic AI),即神經網絡和符號編程(即傳統的確定性編程)的結合。
亞馬遜及其AWS子公司在開發所謂的半自主人工智能代理(AI Agent)方面投入了大量資金,這種代理不僅可以編碼數字助理,還可以處理基本的編碼任務。兩年前接替杰夫?貝佐斯(Jeff Bezos)掌管AWS的Andy Jassy最近表示,這些代理為公司節省了4500年的Java代碼維護時間。
另一個LAM的例子是Rabbit r1,這是一個基于GPT -3.5的個人助理,實現了LAM風格的界面,可以與某些網站自動交互,包括Spotify, Apple Music, Midjourney, Suno, Uber和DoorDash。
蘋果智能(Apple Intelligence)目前還處于預覽階段,是LAM類型系統的另一個例子,正如Salesforce正在開發的企業計算套件一樣。Chawla說:“Salesforce一直在討論使用LAM在幕后處理他們的Salesforce數據,以執行一系列行動,比如發起活動和實際跟蹤輸出。”
今年7月,麥肯錫發布了一份題為《為什么代理是生成式人工智能的下一個前沿》的報告,稱贊了代理為下一代GenAI提供動力的潛力。
這家咨詢巨頭的分析師寫道:“我們正在開始從以知識為基礎、以人工智能為動力的工具(比如,回答問題和生成內容的聊天機器人)向以人工智能為動力的‘代理’的演變,后者使用基礎模型在數字世界中執行復雜的多步驟工作流程。”“簡而言之,這項技術正在從思想走向行動。”
麥肯錫表示,人工智能代理將能夠自動化“復雜和開放式的用例”,這要歸功于它們擁有的三個特征,包括:管理多樣性的能力;受自然語言支配的能力;以及與現有軟件工具和平臺協同工作的能力。
麥肯錫稱這些“超高效的虛擬同事”很快就會出現在貸款承銷、代碼文檔和現代化以及在線營銷活動創建等特定領域。該公司寫道:“盡管代理技術還處于萌芽階段,但增加對這些工具的投資可能會導致代理系統取得顯著的里程碑,并在未來幾年內大規模部署。”
Chawla承認,在這一點上,使用LAM架構構建自動化應用程序存在一些挑戰。LLM是概率性的,有時可能會偏離軌道,因此通過將它們與使用確定性技術的經典編程相結合來保持它們在軌道上是很重要的。
例如,3Pillar目前正在開發一個LAM應用程序,它可以與人交互并向他們提問,但LLM有時會偏離或提出不合法的建議。
他說:“因此,正是確定性編程使它保持在軌道上,保持在護欄之內,但它仍然利用了LLM的力量。”“我們在幕后運行知識圖譜,因此……答案更加集中、精確,不會產生幻覺,因為它與數據集相反。”
Chawla表示,后臺應用程序可能是LLM最好的試驗場,因為它們不會讓公司因LLM脫軌而承擔太多責任。大型軟件公司的集成ERP套件可以訪問大量跨行業數據和跨學科工作流程,這將為LAM和基于代理的人工智能提供信息和驅動。
LAM目前只是一個架構概念,但隨著時間的推移,這個概念將得到充實,3Pillar可以使用基于軟件的框架來加速LAM和人工智能代理系統的開發。
他說:“我認為將會有更多的框架允許您使用預定義的集成、調用或任何常用系統,就像您今天看到的企業服務總線的適配器一樣。”“因此,可能會有一個針對Oracle的適配器,以及可用于執行操作的API,然后是通過配置和點擊而不是代碼來實際構建和創建這些操作的框架。”
Chawla表示,基于消費者的LAM和自主AI代理的潛在優勢確實是巨大的,消費者開始看到這些新科技只是時間問題。
他表示:“我認為,未來兩到五年,這種情況有望出現。”“你將開始看到這些真正的、人工智能驅動的解決方案,而聊天機器人和LLM只是構建模塊,仍然有幻覺之類的問題。但我預計,在我們開始看到實際應用之前,還需要2到5年的時間。”