多模方式提升AI理解能力,微軟展示Project Rumi
在新興技術的數字時代,大語言模型(LLM)已經成為一種強大的工具,革命性地改變了人類社會和文化的許多方面,重塑了我們與計算機的互動方式。然而,還有一個關鍵的挑戰需要解決。LLM的局限性是顯而易見的,它揭示了在無法掌握對話的上下文和細微差別以及取決于提示的質量和具體性方面的差距。
不過,LLM主要依賴于文本輸入輸出,忽略了人類在自然交流中的語調,面部表情,手勢和肢體語言等線索,從而在理解方面會存在偏差。
這些線索統稱為副語言,微軟的Project?Rumi旨在通過解決理解非語言線索和上下文細微差別的局限性來增強LLM的能力。它將副語言輸入納入與LLM的基于提示的互動中,以提高溝通質量。研究人員使用音頻和視頻模型來檢測數據流中的實時非語言線索。兩個獨立的模型用于來自用戶音頻的副語言信息,第一個是音頻的韻律音調和屈折,另一個是來自語音的語義。他們使用視覺變換器對幀進行編碼,并從視頻中識別面部表情。下游服務將副語言信息合并到基于文本的提示中。這種多模式方法旨在增強用戶情緒和意圖理解,從而將人類人工智能交互提升到一個新的水平。
在這項研究中,研究人員只簡要探討了副語言學在傳達有關用戶意圖的關鍵信息方面所起的作用。未來,他們計劃進行建模,使模型變得更好、更高效。他們還希望添加更多細節,如源自標準視頻、認知和環境感知的心率變異性。這一切都是在下一波與人工智能的互動中增加隱含意義和意圖的更大努力的一部分。