成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

生活機器人最后考驗!楊笛一團隊發布EgoNormia:現實中能否符合社會規范?

人工智能 新聞
EgoNormia基準可以評估視覺語言模型在物理社會規范理解方面能力,從結果上看,當前最先進的模型在規范推理方面仍遠不如人類,主要問題在于規范合理性和優先級判斷上的不足。

隨著人工智能技術日益成熟,社會各界對AI或機器人能否學習并遵循社會規范的問題越來越關注。從早期的科幻小說到如今的現實應用,人類始終期望機器能夠理解并內化這些根植于社會生活中的「規范」。

隨著視覺語言模型(VLMs)不斷進步,研究者們陸續推出了諸多基準和數據集,用以評估其第一視角下的視頻理解能力。例如,HourVideo和EgoSchema等基準主要關注長視頻解析以及對物體和事件的識別能力。

然而,這些評估工具難以衡量模型在規范推理(normative reasoning)方面的表現,為此,斯坦福大學團隊提出了EgoNormia基準,旨在挑戰當前最前沿的視覺語言模型,促使它們在復雜場景中做出符合人類常識的規范決策。

圖片

論文鏈接:https://arxiv.org/abs/2502.20490

網頁鏈接:https://egonormia.org

代碼鏈接:https://github.com/Open-Social-World/EgoNormia

在現實生活中,人們做決策時遇到的情境往往充滿矛盾與取舍。

例如:在戶外遠足的時候,如果一位同伴在泥濘中被困;一方面,安全規范要求人們保持足夠距離,以防發生意外;另一方面,協作精神又促使人們對同伴伸出援手。

對于人類來說,這樣的權衡似乎是自然而然的選擇,人們會在保護自己安全的前提下向同伴施以援手;但對于視覺語言模型來說,如何在理解場景、提取關鍵線索的同時做出合乎社會規范的決策,仍然是一個亟待攻克的難題。

圖片

為全面衡量視覺語言模型在規范推理上的能力,論文主要提出了以下研究問題:

  • RQ1:模型是否能做出與人類共識一致的規范決策?
  • RQ2:當模型決策與人類不符時,究竟是因為視覺感知(如物體識別)出現偏差,還是在深入推理規范時存在缺陷?
  • RQ3:是否可以借助 EgoNormia 數據集來提升模型在復雜情境下的規范推理表現?

Physical Social Norm

為了更好地研究規范,論文首先將物理社會規范做出了以下定義:

「物理社會規范(Physical Social Norm)是指在共享環境中約定俗成的期望,這些期望規范著行為者的行為及其與他人的互動方式。」

同時,論文也對于物理社會規范進行了分類,有一類規范明確用于最大化多智能體系統的整體效用,論文稱之為效用規范,即合作、協調和溝通規范。

另一類規范則更側重于人類社會性:安全、禮貌、隱私和空間距離。

人類社會規范往往與群體效用規范存在沖突,這種沖突為評估智能體在沖突目標下的決策提供了場景。重要的是,每一類物理社會規范都能直接影響人機協作的成功,每一種規范具體的例子如下圖。

圖片

任務

EgoNormia基準主要包含三個子任務,所有子任務均采用多項選擇題的形式。

子任務1:動作選擇,選出在當前情境下最符合規范要求的唯一動作。

子任務2:理由選擇,選出最能支持其所選規范動作的理由。

子任務3:動作合理性判斷,從給定選項中選出那些合理的(即符合規范但不一定是最佳的)動作。

圖片

基準生成

EgoNormia基準生成流程主要包含四個階段:片段采樣,答案生成,篩選,人工驗證。這些流程保證了最終數據集保持了多樣性,挑戰性,和人工共識性。

經過一系列流程,論文最終得到了來自1077個原始視頻的1853個視頻切片,涵蓋97種場景和93種不同動作。

借助GPT-4o的自動聚類技術,所有視頻被歸納為 5 個高層級類別和 23 個低層級類別,充分展示了數據的多樣性和豐富性(詳見餅圖)。

圖片

實驗結果

在EgoNormia的評估中,大多數模型的平均準確率均低于40%,而人類的平均得分高達92.4%,表現最好的模型Gemini 1.5 Pro在取得了45.3%的平均準確率,表明當前模型在做具體現身的規范決策(RQ1)方面能力有限。

此外,即便使用了更豐富的文本描述和最先進的推理模型如 o3-mini,表現仍然不及采用視覺輸入的模型,證明了語言在捕捉連續、推理中細微特征(如空間關系、可見情緒與情感以及物理動態)方面存在根本性局限。

圖片

為了探究視覺語言模型規范推理能力受限的原因(RQ2),論文對 EgoNormia 中 100 個具代表性任務的模型回復進行了標注,并進一步將規范推理錯誤進行了分類。

論文共識別出四種失敗模式:(1) 規范合理性錯誤,(2) 規范優先級錯誤,(3) 感知錯誤,以及 (4) 拒絕回答。

對于模型而言,大多數錯誤源自合理性錯誤而非感知錯誤,這表明基礎模型在處理視頻輸入的視覺上下文方面表現尚可,但在對解析出的情境進行有效規范推理時則存在不足。此外,隨著整體性能的提高,規范優先級錯誤的比例也逐步增加(GPT-4o < Gemini 1.5 Pro < 人類),表明更強大的模型在面對模棱兩可的情境時,更難確定哪項規范應當優先。

圖片

最后,研究人員評估了EgoNormia是否可以直接用于提升視覺語言模型的規范推理能力(RQ3)。

研究人員提出采用檢索增強生成(Retrieval-Augmented Generation,RAG),為更深層次的規范推理任務提供基于上下文的規范示例,使其能作為多示例學習的參考。

為了公平地測試EgoNormia在新數據上的效用,研究人員構建了一個基于第一人稱機器人助手視頻的域外測試數據集,基線GPT-4o的得分僅為18.2%。

通過對EgoNormia的檢索,論文展示了在未見域內任務上,相對于最佳非RAG模型和基礎GPT-4o,EgoNormia提供了9.4%的性能提升,并比隨機檢索 EgoNormia 提高了7.9%。

總結

EgoNormia是一種新穎的基準和數據集,旨在嚴格評估視覺語言模型(VLMs)在第一人稱視角下的物理社會規范(PSN)的理解能力。

論文證明,盡管當前最先進的模型在視覺識別和抽象推理方面表現強勁,但在PSN理解上仍然遜色于人類,主要原因在于規范合理性理解和優先級判斷上的錯誤。

通過測試一種基于檢索的方法,論文展示了EgoNormia在提升規范理解方面的直接實用性,在域外和不同體現的視頻上均取得了改進。

最后,論文還指出了具體現身規范理解未來的研究機遇,并建議在大規模規范數據集上進行后續訓練,這將是一個極具前景的研究方向。

部分作者介紹

楊笛一:斯坦福大學計算機系的助理教授,主要關注具有社會意識的自然語言處理,其研究目標是深入理解社會語境下的人類溝通,并開發支持人與人及人機交互的語言技術。

朱昊:斯坦福大學計算機系博士后,卡內基梅隆大學博士,專注于打造能夠學習與人類溝通和協作的人工智能代理。

張彥哲:佐治亞理工學院計算機系博士生,致力于使模型具備持續學習多任務并實現知識遷移的能力,以及使模型能夠從其他模態和人類中受益并為其服務。

伏奕澄:斯坦福大學電氣工程系碩士生,特別關注如何將大規模語言模型應用于現實場景,并致力于開發能夠更高效地與人類及外部世界進行交互的智能系統。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-06-17 07:47:00

2025-04-02 09:50:00

機器人訓練數據

2023-03-13 09:35:07

ChatGPTAI

2022-01-04 10:19:23

架構運維技術

2023-05-09 12:27:52

亞馬遜微服務重構

2024-09-18 09:10:00

AI模型

2017-05-19 12:00:43

機器人家庭醫生YOBY

2024-04-09 08:36:01

2021-11-06 10:53:07

機器學習機器人AI

2020-03-26 21:59:50

機器人機器人警察人工智能

2025-06-27 09:33:38

2024-07-16 13:15:23

2020-08-18 19:24:17

機器人護理機器人人工智能

2009-12-16 09:52:15

Linux操作系統

2021-07-19 09:11:05

機器人人工智能算法

2022-12-29 18:07:25

DDD電話機器人

2022-03-21 13:38:42

機器人人工智能AI

2017-09-18 13:06:54

機器人AI人工智能

2021-07-26 21:31:13

機器人人工智能AI

2023-03-10 08:34:42

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产一区探花在线观看 | 精品国产乱码久久久久久闺蜜 | 国产一级片一区二区三区 | 综合久久99 | 做a视频 | 三级免费毛片 | 亚洲福利在线观看 | 国产精品久久久久久亚洲调教 | 日韩在线视频免费观看 | 婷婷综合网 | 国产精品亚洲综合 | 亚洲国产精品一区二区三区 | 亚洲国产一区二区三区 | 午夜三区| 久久高清国产视频 | 久久国内精品 | 亚洲免费网址 | 操久久| 激情av网站 | 免费观看成人鲁鲁鲁鲁鲁视频 | 毛片一级黄色 | 黄色免费三级 | 一级大黄色片 | 欧美精品久久久久久久久老牛影院 | 亚洲免费视频网址 | 精品国产鲁一鲁一区二区张丽 | 国产午夜精品一区二区三区四区 | 五月婷亚洲 | 亚洲天堂成人在线视频 | 成人高清视频在线观看 | 91精品国产乱码久久久久久久久 | 成人av一区二区在线观看 | 色啪网| 国产色片在线 | 精品九九久久 | 91精品一区 | 观看毛片 | 黄色大片观看 | 精品久久久一区 | 伊人精品在线视频 | 久久久久香蕉视频 |