激發大語言模型空間推理能力:思維可視化提示 原創
大語言模型(LLMs)在語言理解和各種推理任務中展現出令人印象深刻的性能。然而,它們在人類認知的關鍵一面——空間推理上,仍然未被充分研究。人類具有通過一種被稱為 心靈之眼 的過程創造看不見的物體和行為的心智圖像的能力,從而使得對未見世界的想象成為可能。受到這種認知能力的啟發,研究人員提出了 “思維可視化”(Visualization of Thought,VoT)。VoT旨在通過可視化其推理跡象來引導LLMs的空間推理,從而引導后續的推理步驟。研究人員將VoT應用于多跳空間推理任務,包括自然語言導航、視覺導航以及二維網格世界中的視覺鋪設。實驗結果表明,VoT顯著增強了LLMs的空間推理能力。值得注意的是,VoT在這些任務中表現優于現有的多模態大型語言模型(MLLMs)。
引言
最近,大語言模型(LLMs)在各種與語言相關的任務上取得了顯著的表現。然而,盡管它們在數學推理、常識推理以及其他推理任務,如符號推理或邏輯推理等方面取得了成功,但它們在空間推理方面的能力仍然未被充分探索。
空間推理是人類認知的基本功能,使我們能夠與環境互動。它促進了需要理解和推理物體及其運動之間空間關系的任務。語言模型的空間推理在很大程度上依賴于語言來推理空間信息,而人類的認知能力遠遠超出了語言推理。人類不僅可以從視覺感知中創建與任務相關的抽象表示,還可以通過心靈之眼想象看不見的場景。這在神經科學、心靈哲學和認知科學領域被稱為心智圖像的研究課題。建立在這一認知功能之上,人類通過心智圖像的操作來促進空間推理,比如導航、心理旋轉、心理紙張折疊和心理模擬。圖1說明了在導航任務中涉及的人類過程。人類通過創建路徑的心智圖像來增強其空間意識并指導其決策,利用各種感官輸入,如導航指令或地圖圖像。隨后,他們通過心靈之眼模擬路徑規劃。
圖1:人類可以通過在空間推理過程中創建心智圖像來增強他們的空間意識并指導決策。同樣地,大語言模型(LLMs)可以創建內部心智圖像。研究人員提出了VoT,通過可視化它們在每個中間步驟的思維,來引發LLMs的“心靈之眼”,從而促進空間推理。
受到這一認知機制的啟發,研究人員推測LLMs具有在心靈之眼中創建和操作心智圖像的能力來進行空間推理。正如圖1所示,LLMs可能潛在地處理和理解各種格式的空間信息。它們可能能夠可視化內部狀態,并通過心靈之眼操作這些心智圖像,從而引導后續推理步驟以增強空間推理。因此,研究人員提出了 “思維可視化”(VoT) 提示來引發這種能力。該方法通過為LLMs增加一個視覺空間素描板來可視化其推理步驟并指導后續步驟。VoT采用零示范提示,而不是依賴于少量示范或使用CLIP進行文本到圖像的可視化。這個選擇源自LLMs從基于文本的視覺藝術中獲得各種心智圖像的能力。
為了評估VoT在空間推理中的有效性,研究人員選擇了三個需要LLMs空間意識的任務,包括自然語言導航、視覺導航和視覺鋪設。這些任務需要理解空間、方向和幾何形狀推理。為了模擬人類般的多感官感知,研究人員設計了使用特殊字符作為LLMs視覺導航和視覺鋪設任務中豐富輸入格式的2D網格世界。在這三個任務中比較了不同的模型(GPT-4、GPT-4V)和提示技術。研究結果顯示,VoT提示始終促使LLMs可視化其推理步驟并指導后續步驟。因此,這種方法在相應任務上取得了顯著的性能提升。
圖2:不同設置下的導航地圖示例,房子的表情符號表示起點,辦公室的表情符號表示目的地。
空間推理
空間推理指的是理解和推理物體之間的空間關系、它們的移動和互動的能力。這種技能對于廣泛的現實世界應用非常重要,如導航、機器人技術和自動駕駛。這些領域需要基于視覺感知和對空間維度的具體理解進行行動規劃。盡管已經開發了幾項任務和數據集來探究嵌入在文本中的空間語義,研究工作通常集中在空間術語如何在語言上結構化上。最近,通過將空間術語轉換為邏輯形式并采用邏輯編程,在這些基準測試中取得了顯著的成就和令人印象深刻的結果。這意味著在這些任務中取得優異成績并不一定意味著大型語言模型(LLMs)真正理解了空間信息,也不提供它們空間意識的準確衡量標準。空間意識涉及理解空間關系、方向、距離和幾何形狀,這些都對于在物理世界中進行行動規劃至關重要。為了評估LLMs的空間意識和空間推理能力,研究人員選擇了一些測試導航和幾何推理技能的任務,包括自然語言導航、視覺導航和視覺鋪設。
自然語言導航
自然語言導航涉及通過隨機漫步瀏覽底層空間結構,旨在識別先前訪問過的位置。這個概念受到先前關于人類認知的研究的啟發,其采用了類似于沿著圖結構進行隨機漫步的方法。這個過程需要理解循環閉合,這對于空間導航至關重要。
視覺導航
視覺導航任務向LLMs展示了一個合成的二維網格世界,挑戰其利用視覺線索進行導航。模型必須生成導航指令,以四個方向(左、右、上、下)移動,從起點到達目的地,同時避開障礙物。這涉及到兩個子任務:路線規劃和下一步預測,需要進行多跳空間推理,其中前者更為復雜。
視覺鋪設
視覺鋪設是一個經典的空間推理挑戰。將這個概念擴展到測試LLMs在有限區域內理解、組織和推理形狀的能力,從而增強了空間推理技能的評估。任務涉及一個帶有未填充單元格和各種多米諾塊的矩形,比如由四個對齊的方塊組成的I-多米諾塊。模型必須選擇適當的多米諾塊變體,例如選擇I-多米諾塊的方向,以解決問答謎題。
圖3:帶有掩碼多米諾塊的視覺鋪設示例。該圖未顯示多米諾塊的旋轉和鏡像變體。
思維可視化提示
考慮到人類在導航等任務中處理空間信息的方式,常常會創建心智圖像,如地圖,以增強空間意識或模擬移動以指導決策。研究目標是喚起LLMs的空間意識,并通過可視化它們的中間推理步驟來基于實際情況進行推理。
研究人員引入了“思維可視化”(VoT)提示: "在每個推理步驟之后可視化狀態"。這種新的空間推理范式旨在以交錯的方式生成推理跡象和可視化結果。
圖4:三個任務中VoT提示的示例,LLM以交錯方式生成推理跡象和可視化來跟蹤隨時間變化的狀態。
論文:https://arxiv.org/pdf/2404.03622.pdf
本文轉載自公眾號AIGC最前線
