ChatGPT可以開車嗎?分享大型語言模型在自動駕駛方面的應用案例 原創
人工智能技術如今正在快速發展和應用,人工智能模型也是如此。擁有100億個參數的通用模型的性能正在碾壓擁有5000萬個參數的任務特定模型,在從單一模型解決許多任務方面表現出了卓越的性能。
人工智能模型也正在變得多模態。微軟公司的Florence 2和OpenAI公司的GPT-4V等新的視覺模型正在擴展這些模型的應用,以整合圖像、視頻和聲音,將大型語言模型(LLM)強大的能力應用在數百萬個新的用例中。
事實證明,在模型工程領域,規模越大越好,每個應用程序都經歷了類似的發展:
- 一個任務,一個領域:針對特定用例的簡單模型——用于檢測道路的對象檢測器,用于室內場景的深度分割模型、圖像字幕模型、用于Web應用程序的聊天機器人等。
- 一個任務,每個領域:將一個簡單模型的應用擴展到許多用例中——無處不在的對象檢測器(YOLO、DINO等)、各種事物的深度分割(MobileNet)、多種產品的聊天插件。
- 每個任務,每個領域:可以應用在任何事情的大型模型,新的大型語言模型(LLM)使范式轉變成為可能。例如Florence、GPT-4V、ChatGPT。
- 每個任務,一個領域:為某一個領域優化大型模型,支持實時應用程序和更高的可靠性——例如,用于交互式搜索的GPT-3.5-Turbo,用于研究和起草法律文檔的Harvey.ai,用于自動駕駛的DriveGPT。
運行在小型模型上的自動駕駛技術
自動駕駛技術仍然在小型模型上運行。雖然許多單一任務模型、專用傳感器和精確的地圖組合已經提供了令人印象深刻的原型,但目前的技術還沒有提供支持司機日常所需的安全性或規模。
以下是阻礙自動駕駛技術發展的因素:
- 零樣本泛化?,F有的模型經常在從未見過的情況下失敗,通常被稱為自動駕駛的“長尾”。如果沒有得到充分的訓練,這些模型就沒有能力根據基本原則來推斷下一步該做什么。迄今為止的解決方案是建立另一個專用模型。難以繪制動態場景是大多數自動駕駛系統的一個關鍵弱點。
- 理解司機和行人的意圖。現有的模型無法理解人類互動和意圖的微妙之處,無論是車內的司機還是車外的行人或車輛。
- 準確繪制區域地圖。雖然自動駕駛車輛在地圖繪制良好的區域大多可以行駛,但事實證明,精確的高清地圖很難進行縮放。如果沒有精確的地圖,基于地圖的自動駕駛車輛就不能很好地行駛。
- 擴展到其他類型車輛。如今的自動駕駛出租車依賴于專門的傳感器,昂貴的計算以及許多專用模型的組合——這是一個復雜而昂貴的技術,尚未擴展應用到其他類型的汽車。
大型語言模型和長尾問題
在所有應用程序中,模型工程師使用大型語言模型作為超級強大的開發工具來改進模型工程過程的每個方面。大型語言模型已經被證明在開發和改進模擬環境,對大量數據集進行分類、理解和標記,以及解釋和調試神經網絡的“黑匣子”方面非常有用。
也許大型語言模型在開發過程中的最大優勢之一是能夠用自然語言表達復雜的、多步驟的邏輯,通過繞過對專家代碼的需求來加快開發速度。這已經被證明在復雜的問題領域非常有用,例如文本摘要或代碼完成與代碼庫之間的復雜依賴關系。
所有這些工程工具都可以廣泛地改進開發工作,包括自動駕駛,但大型語言模型最有趣和最有影響力的應用是直接針對駕駛任務本身:對復雜的場景進行推理,并規劃最安全的前進路線。
自動駕駛是一個特別具有挑戰性的問題,因為某些邊緣情況需要復雜的、類似人類的推理,遠遠超出傳統的算法和模型。大型語言模型在超越純粹的相關性,展示真正的“對世界的理解”方面表現出了希望。這種新的理解水平延伸到了駕駛任務,使司機能夠在不需要明確訓練的情況下,以安全和自然的方式在復雜的場景中導航。
現有的模型可能會被十字路口出現的建筑工人或事故現場周圍的路線所迷惑,大型語言模型已經顯示出了非常熟練地推理正確路線和速度的能力。大型語言模型提供了一條解決“長尾”的新途徑,即處理前所未有的情況的能力。在過去的二十年,長尾一直是自動駕駛面臨的根本挑戰。
大型語言模型對自主任務的限制
如今,大型語言模型對于自主應用方面仍然存在一些限制。簡單地說,大型語言模型需要變得更加可靠和更快。因此需要開發解決方案,而這正是開發人員努力工作的地方。
1.延遲和實時限制
司機的關鍵決策必須在不到一秒鐘的時間內做出,而在數據中心運行的最新大型語言模型可能需要10秒或更長時間。
解決這個問題的一個方案是采用混合云架構,它用數據中心處理為車載計算系統提供補充。另一個方案是專門構建的大型語言模型,它可以將大型模型壓縮成足夠小、足夠快,以適應汽車的應用。人們已經看到在優化大型模型方面有了顯著的改進。Mistral 7B和Llama 2 7B已證明其性能可與GPT-3.5相媲美,參數數量級更少(70億個參數對1750億個參數)。摩爾定律和持續的優化應該會迅速將更多的這些模型轉移到邊緣。
2.幻覺
大型語言模型基于相關性進行推理,但并非所有相關性在特定場景中都有效。例如,自動駕駛車輛觀察到一個人站在十字路口可能意味著停止(行人)、駛離(交警)或減速(施工工人)。正相關性并不總是給出正確的答案。當模型產生不能反映現實的輸出時,將其結果稱為“幻覺”。
基于人類反饋的強化學習(RLHF)通過將模型與人類反饋相結合來理解這些復雜的駕駛場景,為這些問題提供了一個潛在的解決方案。隨著數據質量的提高,像Llama 2 70B這樣的小型模型的性能與GPT-4不相上下,參數卻減少了20倍(700億個參數對1.7萬億個參數)。
研究項目也使更好的數據質量更容易擴展。例如,OpenChat框架利用了強化學習微調(RLFT)等新技術,在提高性能的同時避免了成本高昂的人類偏好標簽。
3.新的長尾
大型語言模型已經編碼了“一切”,但仍然可能沒有涵蓋所有特定于駕駛的概念,例如在繁忙的十字路口進行導航的能力。這里的一個潛在解決方案是采用長序列的專有駕駛數據訓練模型,這些數據可以將這些更詳細的概念嵌入模型中。例如,Replit使用來自其用戶群的專有編碼數據,通過微調不斷改進其代碼生成工具,性能優于Code Llama 7B等大型模型。
自動駕駛的未來發展
如今,自動駕駛尚未成為主流技術,目前只有少數自動駕駛車輛能夠在最復雜的城市環境安全行駛。大型模型正在改變自動駕駛模型的開發方式,最終將改變自動駕駛技術——提供必要的安全性和規模,最終將這項技術交付給司機。
原文標題:Can ChatGPT drive my car? The case for LLMs in autonomy,作者:Prannay Khosla
鏈接:?https://www.infoworld.com/article/3712644/can-chatgpt-drive-my-car-the-case-for-llms-in-autonomy.html?。