把ChatGPT塞進副駕駛!清華、中科院、MIT聯合提出Co-Pilot人機交互框架:完美把控乘客意圖
作為本年度人工智能領域最重要的突破之一,大語言模型相關研究始終是各大相關領域的關注焦點。
近日,來自清華大學、中國科學院、MIT的科研人員對于大語言模型在人機交互領域中的應用進行了研究,設計了一種名為Co-Pilot的人機交互框架,使用提示引導ChatGPT(gpt3.5)在考慮人主觀意圖的同時完成簡單的自動駕駛任務。
論文鏈接:https://www.researchgate.net/publication/374800815_ChatGPT_as_Your_Vehicle_Co-Pilot_An_Initial_Attempt
該研究作為最早一批使用原生語言大模型直接介入自動駕駛任務的嘗試,揭示了大語言模型在自動駕駛領域進一步深入應用的可能性,也為后續相關研究指明了方向[1]。
研究背景:為什么使用大語言模型?
人車交互作為智能汽車發展的重要功能之一,對降低司機駕駛負擔、提升乘客出行體驗有很大幫助,相關功能也成為了消費者在選擇時的重要標準。
盡管現有人機交互系統已經可以實現語音識別、指令執行等功能,但大多數情況下系統僅能根據既定指令的訓練在有限范圍內給出回答或響應,存在一定的局限性。
相比之下,大語言模型在此類能力上具有更好的表現:
1. 可以理解人的意圖:
大語言模型具有推理能力,其可以從文字中理解說話者的真正意圖,并給出相應的回應;
2. 擁有常識:
得益于大量的訓練數據中包含的知識,大預言模型具有一定的常識,并掌握許多特定領域的基礎知識與能力;
3. 對于不同任務的高度適應性:
通過調整提示詞,大語言模型對于不同任務具有很好的適應性,可快速適配不同種類的任務,極大提升了應用與落地的效率。
基于此,大語言模型為解決人機共駕問題提供了一種新的思路。
為了探索大語言模型在自動駕駛人機交互領域的應用,研究人員提出了「Co-Pilot」架構,用于實現乘客、大語言模型以及車輛之間的交互。
為了驗證方案的可行性,研究人員設計了兩個不同種類的任務對其進行測試,實驗效果達到了預期。
Co-Pilot:架構與核心
Co-Pilot架構如下圖所示:
Co-Pilot主體機構包含了以下模塊:
1. 編碼器:將必要的信息組成提示,通過專用API發送至大語言模型。
2. LLM:大語言模型,本工作使用ChatGPT(GPT3.5-turbo-0301)。
3. 解碼器:將自然語言回應解析為指令或數據,用于車輛的交互與控制。
4. 保險機制:考慮到大語言模型作為概率模型的本質,現階段難以杜絕其在回答中出錯,故預留該保險機制防止存在明顯錯誤的指令影響車輛運行。
5. 記憶機制:保存Co-Pilot完成任務所必須的數據及其他信息,作為輸入的重要組成部分,可在工作過程中被實時更新。
Co-Pilot主要擁有兩種工作流程:
1. 實現流程:Co-pilot依據不同任務完成一次工作周期的流程。
2. 調優流程:車輛專家依據不同任務調整記憶機制的前置優化流程。
記憶機制
本文按照人類認知心理學對大語言模型內部的知識儲存進行模擬[2],提出了記憶機制用來劃分自動駕駛場景中可能涉及到的信息,旨在全面提升Co-Pilot信息利用效率。
專家主導的黑箱優化
該方法利用黑箱優化中在低維空間進行無梯度優化的思想,利用專家的主觀標注來評估任務完成效果,從而更新記憶中的內容來增強提示詞,使得LLM進行少樣本學習。
仿真實驗
為了驗證Co-Pilot架構的可靠性,本文設計了兩個任務,在以MATLAB/Simulink為基礎的仿真平臺中開展。
實驗一:軌跡跟隨控制器選擇
在該實驗中,假設有一輛自動控制的汽車在預設路徑上行駛,研究人員給定Co-Pilot當前車輛狀態、路段情況等信息,要求其選擇最符合當前乘客意圖(如保證速度、緊隨軌跡、體驗舒適)的運動控制器。
運動控制器為已有預設模塊,分別為NMPC控制器、Stanley + Preview控制器、PID控制器。
賽道總覽
實驗一的Co-Pilot具體結構
在調優環節中,研究人員分別對語義記憶與情景記憶進行了更新,其中語義記憶僅能提供對控制器的種類(A1)或定性描述(A2),而情景記憶可以提供對控制器在過去相似場景下的具體表現(A3)。
賽道被分為五個區段,研究人員根據Co-Pilot是否在各區段選出了最符合當前乘客意圖的控制器進行打分(每個區段最優1分,次優0.5分,最差0分,賽道總分最高為5分),分析不同記憶對于Co-Pilot表現的影響,研究人員在「精確跟蹤」與「保持穩定」兩種意圖下分別測試,測試結果顯示,A1僅取得3分,Co-Pilot在所有區段均選擇了NMPC控制器。
由于此時提供的信息有限,其只能根據訓練中積攢的常識「NMPC的控制效果很好」做出判斷。A2取得了7.5分,而A3取得了8.5分,證明情景記憶在相似任務中對Co-Pilot的推理最有幫助,使其可結合人類意圖給出合理的反應。
接著,研究人員使用了調優后的A3提示模式開展了更復雜的實驗。在此實驗中,五個區段的人類意圖不再保持一致且引入了更口語化表達的新意圖「刺激」。
實驗結果如下圖所示,Co-Pilot在每個區段都能選出最符合乘客意圖的控制器(由于控制器在切換時受到上一區段的車輛狀態影響,導致被選控制器的效果與預期可能存在細微差異)。
實驗二:雙移線避障軌跡規劃
在本實驗中,研究人員將重點轉移到規劃類任務,向Co-Pilot描述當前路況,并要求其給出未來10s內的路徑。
在調優環節中,研究人員更加側重對于程序記憶的組織與優化,語義記憶與情景記憶中包含的信息基本不存在差異。在此的前提下,不同提示帶來的顯著結果差異更加值得深入探究。
四種提示的區別以及十次測試的平均得分情況
(打分依據:合理性滿分5分、完成度滿分3分、正確性滿分2分)
四種提示下的代表軌跡
在使用B4提示的前提下,進一步引入不同種類的乘客意圖,得到的代表性軌跡如下,可以看出在給出正確避讓軌跡的基礎上,Co-Pilot可以進一步調整軌跡使其符合乘客意圖。
不同乘客意圖的代表軌跡,均符合乘客意圖
結果討論
實驗中我們可以注意到,提示中不同記憶的組合,對于LLM的表現有著顯著影響。
1. LLM可根據常識以及記憶中包含的信息進行推理,在提供的信息不足以實現合理推斷時,LLM可根據其訓練中積累的經驗做出決策;
2. 提示中的程序記憶在任務本身的描述上有時并不存在本質區別,但卻對LLM的表現產生了很大影響。
這些現象引出了后續可能值得研究的更多問題:類似交通等復雜場景應該如何高效描述以發揮LLM的優勢?LLM內部實現推理/完成任務的機制究竟如何?這些問題與大模型乃至人工智能的可解釋性、安全性等重要問題息息相關。
未來展望與挑戰
Co-Pilot是一種創新的嘗試,它將LLM應用于人機混合智能[3]。LLM大大提高了人機通信的效率,使人類和機器更好地理解彼此。
人類專家對Co-Pilot進行調優的過程可以被視為系統的自適應學習。這使得深入的人機合作成為可能,并且在測試和調整人工智能系統方面具有巨大潛力。
LLM與現有平行學習架構[4]相結合,可進一步提升機器學習的效率
另一方面,正如本文實驗中展示的,大語言模型通過海量數據訓練得到的常識能在其工作中發揮重要作用。
后續在此基礎上,多模態混合大模型(如視覺+語言模態)能夠進一步打通「感知-規劃-執行」的流程,使得此類大模型可勝任自動駕駛、機器人等需要與現實世界交互的復雜任務[5]。
當然,研究過程中涌現出的許多潛在挑戰也值得關注:例如,怎樣進一步提升LLM的性能?如何保證LLM表現得一致性、穩定性?在面對更復雜的動態場景時,如何保證LLM正確完成任務?
總結
本工作提出了一種將大語言模型直接用于人機共駕任務的Co-Pilot架構,并設計對應實驗初步證明了架構的可靠性以及大語言模型在自動駕駛類任務中的可適用性,討論了相關領域研究的潛在機遇及挑戰。
該項工作已于近日發表于IEEE Transactions on Intelligent Vehicles,來自清華大學深圳國際研究生院的王詩漪以及來自清華大學自動化系的朱宇軒為本文共同第一作者,通訊作者為清華大學自動化系李力教授。