成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

能力與可信度可以兼得?GPT-4、Gemini等多模態大模型評測報告來了

人工智能
本研究為深入理解 MLLMs 的潛力和局限提供了極有價值的參考,為未來多模態應用的發展提供了指導,以縮小多模態大模型與實際落地應用之間的差距。這對于推動通用人工智能技術在多領域的應用具有重要意義。

2023 年我們正見證著多模態大模型的跨越式發展,多模態大語言模型(MLLM)已經在文本、代碼、圖像、視頻等多模態內容處理方面表現出了空前的能力,成為技術新浪潮。以 Llama 2,Mixtral 為代表的大語言模型(LLM),以 GPT-4、Gemini、LLaVA 為代表的多模態大語言模型跨越式發展。然而,它們的能力缺乏細致且偏應用級的評測,可信度和因果推理能力的對比也尚存空白。

近日,上海人工智能實驗室的學者們與北京航空航天大學、復旦大學、悉尼大學和香港中文大學(深圳)等院校合作發布 308 頁詳細報告,對 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 等熱門的 LLM 和 MLLM 進行評測。根據 4 種模態(文本、代碼、圖像及視頻)和 3 種能力(泛化能力、安全可信能力和因果推理能力)形成了 12 個評分項,并通過 230 個生動案例,揭示了 14 個實證性的發現。

圖片

*作者順序按照字母順序排名

  • 評測報告:https://arxiv.org/abs/2401.15071
  • 榜單地址:https://openlamm.github.io/Leaderboards

后續會持續對最新多模態大語言模型及多模態生成大模型進行評測,如GeminiUltra,SORA 等,結果會更新到榜單地址,敬請期待!

結論速覽

  • 文本和代碼能力:總體來說,GPT4>Gemini>Mixtral>Llama-2 等其他模型。值得一提的是多語種翻譯的能力,谷歌的 Gemini 大放異彩,其能準確捕捉成語和復雜結構的微妙差異,甚至超越了 GPT-4,展示出信達雅的中文翻譯能力。
  • 領域知識:通過醫學、經濟學等學科知識測評發現,Gemini 的領域知識和 GPT-4 都非常豐富,但它在 “學以致用 " 的能力上稍顯欠缺,而且偏科醫學。GPT-4 則在解決各種專業領域問題方面都都略勝一籌。
  • 安全與可信度:GPT-4 相比于 Gemini Pro,以及 Llama-2 等其他開源模型,展現出顯著優勢。在涉及道德敏感性問題和安全可信問題時非常謹慎,但可能由于其安全防護機制過強,導致部分正常問題也拒絕回答,這一點有待更多討論。
  • 視覺能力:通過對圖像和視頻兩種模態的輸入進行評測,發現開源模型甚至在部分維度上與閉源模型的視覺能力評分不相上下,沒有明顯的差距,視覺的細節感知均有待提高,視覺能力可能將成為多模態大模型能力競爭的焦點。
  • 因果關系分析:文本、代碼、圖像和視頻四種模態中,Gemini 語言表達非常簡潔,GPT-4 在各模態輸入時都能深入理解和解釋復雜場景。對于視頻輸入,需要對時序有理解能力的因果推理問題上,特別是在處理多輪交互和理解事件序列因果關系方面,所有模型在都處于起步階段。

圖片

圖 1:通過四種模態對各 LLM/MLLM 在通用性、可信度和因果關系上的評測結果

實驗性發現

文本和代碼總體能力概括:總體而言,Gemini 的性能遠不如 GPT-4,但優于開源模型 Llama-2-70B-Chat 和 Mixtral-8x7B-Instruct-v0.1。對于開源模型而言,在文本和代碼方面,Mixtral-8x7B-Instruct-v0.1 的表現優于 Llama-2-70B-Chat。(GPT4>Gemini>Mixtral>Llama-2)

圖片

圖 2:創意寫作,在這個評測樣例中,讓模型使用數學理論寫一首情詩,GPT 非常有創意,π 代表無窮,指數曲線代表上升,常數代表始終如一,可見其融合多學科知識的能力非常不錯。

圖片


圖 3:語法結果。綠色文字表明合理的回答。紅色文字表明不合理的回答。GPT-4 表現最好,而 Mixtral 在 7 個問題中有 2 個錯誤的答案,Gemini 表現最差。

多語言翻譯能力:在多語言翻譯能力方面,Gemini 表現出色,甚至超越了 GPT-4 和最好的開源模型。Gemini 能夠準確理解成語和英語句子的微妙差異以及復雜的結構,然后準確翻譯它們,而 GPT-4 和開源模型通常只翻譯字面意思。此外,Gemini 生成的中文翻譯通常更加優雅。

圖片

圖 4:多語言翻譯結果。綠色文字表明更優秀的回答。紅色文字表明明顯錯誤的回答。在將中國成語翻譯成英文時,這三個模型都存在很多問題,但 Gemini 的表現稍好一些。

數學計算和推理能力:無論是多解數學問題、定理證明還是常識推理,Gemini 的表現通常較差,結果接近開源模型 Mixtral-8x7B-Instruct-v0.1 和 Llama-2-70B-Chat,而 GPT-4 一如既往的表現最好。Gemini 有時在引用定理和知識方面出現明顯錯誤;即使使用正確的知識,它也經常因計算錯誤而失敗。

圖片

圖 5:方程推導結果。綠色文字表明合理的回答。紅色文字表明錯誤的回答。GPT-4 表現最好,其次是 Gemini,Mixtral 作為開源模型和這兩個閉源模型仍有差距。

領域知識應用能力:Gemini 通常只具有某些領域知識的表面理解。無論是在醫學、經濟還是其他學科領域,Gemini 可以理解這些領域的專業術語和問題。然而,當將這些知識應用于解決具體問題時,它經常會犯錯。相比之下,GPT-4 不僅具備專業知識,還知道如何應用它,通常能夠較好解決專業領域的問題。至于圖像輸入,在醫學專業領域(GPT-4 避免回答這一系列問題的領域),與開源 MLLMs 相比,Gemini Pro 在醫學圖像模態識別和內容理解方面表現出良好的能力,并在某些情況下提供有價值的診斷建議。然而,根據案例的評估結果,目前正在測試的 MLLMs 在提供有效的醫學診斷和全面報告方面仍然面臨重大挑戰。

圖片

圖 6:領域知識應用能力。綠色文字表示合理的回答。紅色文字表示不合理的回答。GPT-4 表現最佳,而 Gemini 和 Mixtral 提供了相互矛盾的解釋和錯誤的答案。

文本和代碼的可信度和安全性:與 GPT-4 甚至開源模型 Llama-2 相比,Gemini Pro 在這方面缺乏足夠能力。Gemini Pro 難以熟練識別測試提示中的誘因和陷阱,如歧視、刻板印象和非法行為的實例。此外,研究者發現 Mixtral 的文本可信度能力不夠穩健。有時它可以識別提示中的陷阱并給出安全的回應,但有時會失敗。在極端風險方面,研究者關注潛在的化學威脅。Gemini Pro 對化學有很好的了解,可以準確地提供化合物的合成方法等。然而,它經常無法識別給定的化合物是危險的。相比之下,GPT-4 和 Llama-2 在這方面做得更好,會發出化合物是危險的警告。Mixtral 可能受到自己的化學知識的限制。雖然它也會回應,但不夠詳細。在代碼的可信度方面,Llama-2 和 GPT-4 明顯優于 Gemini Pro。Gemini Pro 具有強大的代碼生成能力,但難以識別測試提示中的安全風險,如違反社會倫理、安全極端風險,甚至直接給出危險的答案。

圖片

圖 7:綠色文字表示安全的回應。紅色文字表示不安全的回應。藍色文字表示我們對這個回應的簡短評論。只有 Gemini Pro 給出了危險爆炸化合物的具體名稱。

文本輸入時的推理能力:在文本因果關系場景中,研究者的分析揭示了不同模型響應的明顯模式。具體而言,Gemini Pro 傾向于提供直接且符合規定的答案,特別是在問題明確要求簡單的 “是或否” 回答或涉及從多個選擇中進行選擇時。Gemini Pro 的這一特點使其在更傾向于簡潔回答的大規模評估中成為更實際的選擇。相比之下,其他模型傾向于在回答中包含解釋性細節。雖然這種方法可能對批量處理不太高效,但它為理解模型背后的推理過程提供了更清晰的洞察,這在需要理解決策背后邏輯的案例研究中特別有益。

圖片

圖 8:反事實推理的結果。綠色文字表示合理的回應。紅色文字表示錯誤的回應。藍色文字展示了 Llama2-70B-chat 的道德考量。它強調了在評估假設場景時道德推理的作用,這些場景雖然是假設的,但植根于現實世界的倫理困境。

代碼輸入時的因果推理能力:GPT-4 顯示出評估給定問題的可行性并提供邏輯一致的解釋的特殊能力。這種技能對于準確識別和解決問題至關重要。然而,其他三個模型在這個方面沒有展示出同樣的熟練水平。它們難以準確識別問題的可行性,通常導致生成與預期結果或要求不符的代碼。

圖片

圖 9:代碼生成結果。綠色文字表示正確的回應。紅色文字表示錯誤的回應。

圖像能力:MLLMs 已經展示出熟練理解圖像主要內容的能力,能夠基于提出的查詢分析圖像中的大部分信息。然而,在需要精確定位的任務,如檢測,或需要精確信息提取的任務,如涉及 OCR 功能的圖表分析方面,仍有改進的空間。

圖片

圖 10:圖像計數結果。綠色文字表示更優秀的回應。紅色文字表示錯誤的回應。所有的多模態大型語言模型(MLLMs)都無法準確地計算圖像中物體的數量,這可能是由于遮擋問題,阻礙了它們在計數時準確識別物體,導致錯誤。

多圖理解任務:MLLMs 在處理涉及復雜推理的多圖任務方面仍面臨挑戰。例如,機器人導航等任務,需要空間想象力,以及漫畫分析等任務,涉及到圖像之間的關系分析,對 MLLMs 來說都具有困難。

圖片

圖 11:圖像上下文學習結果。綠色文字表示合理的回答。紅色文字表示錯誤的回答。所有 MLLMs 都無法準確讀取時針指向的數字

處理圖像時的安全性和可靠性評估:在測試模型對視覺干擾的抵抗力時,Gemini 和其他模型表現差別比較大。盡管 Gemini 能夠在加入高斯噪聲的圖片中識別出物體,但其準確度仍低于其他開源模型。在極亮或逆光條件下進行的測試中,Gemini 展現了一定的圖像識別能力。它可以正確辨認高速公路上的夜景,但對于在明亮的日落背景中的剪影,它就難以識別。當面對沒有具體信息的空白圖片時,Gemini、開源模型 LAMM 和 LLaVA 傾向于給出類似幻覺的回答。與之相比,GPT-4 通過表明圖片內容的缺失來展現了更為可靠的視覺能力,保證了事實上的準確。在圖像安全性方面,與 GPT-4 相比,Gemini Pro 有明顯的不足,用戶可以相對容易地操縱 Gemini Pro 生成有害的回答。目前的開源模型和 Gemini Pro 在圖像輸入時的安全護欄方面都需要進一步改進。

圖片

圖 12:一個關于食品安全的例子。綠色文字表示合理的回應。紅色文字表示錯誤的回應。值得注意的是,GPT-4 和 Qwen-VL 都提供了合理的回應。然而令人不安的是,Gemini Pro 建議使用這些食物來傷害朋友,這種回應具有一定的危險性。

圖像因果推理能力:與 GPT-4 的能力相比,Gemini 的明顯更弱,且它與其他開源模型如 LLaVA 等能力接近。Gemini 在復雜場景中,如城市中發生洪水等,辨別復雜細節方面存在很大的局限性。相比之下,GPT-4 擅長處理這些復雜場景,展示了更好的理解和分析能力。Gemini 的比較獨特的一點是它傾向于對給定問題提供簡潔但常常非常有限的回答,猜測可能和其訓練策略有關。相反,GPT-4 的回復通常更加全面廣泛,其有能力提供更富有洞察力的回應,并充分考慮上下文信息。

圖片

圖 13:關于圖像輸入的因果推理能力的示例。綠色文字表示合理的回應。紅色文字表示不合理的回應。開源模型 LLaVA 在視覺識別方面存在問題,而 Gemini Pro 和 GPT-4 能夠識別 “燃燒”、“滅火” 和 “倒塌” 等關鍵詞。此外,GPT-4 的回答更詳細、包含更多內容。

視頻處理能力:針對視頻輸入的開源 MLLM 例如 VideoChat 表現優于 Gemini Pro 和 GPT-4。然而,與僅在圖像指令數據集上進行微調的開源 MLLM 如 LLaVA 相比,Gemini Pro 展現出了更強的視頻理解能力,包括對時序的建模。然而,閉源模型的優勢并不明顯,例如在涉及到查詢具體視頻內容的應用中,GPT-4 受其嚴格的安全協議約束,經?;乇芎途芙^問題。另外,Gemini 在基于當前狀態預測未來事件方面表現出色,特別是在動態變化環境中,展示出較好的時間預測能力。

圖片

圖 14:移動狀態下物體計數的評測結果:綠色文本表示的是正確的回答,而紅色文本則表示錯誤的回答。GPT-4V 選擇不回答與這種類型視頻相關的問題,Gemini 的所有回答均不正確。而開源模型 VideoChat 能夠準確評估物體的材料和數量,從而提供正確的答案。

視頻處理可信和安全性評測:和 Gemini 相比,GPT-4 在輸入視頻有噪聲時的表現更加魯棒,例如其能在視頻有雨霧等視線不佳的情況下,對視頻內容進行細致識別。當輸入空白視頻時,Gemini 出現了前后回答的不一致,有時會識別出內容缺失,但經常給出幻覺回應;相較而言,GPT-4 始終能識別出輸入的是空白視頻,而避免不符合事實的想象推斷,展現了更加可靠的能力。在視頻輸入的安全評估方面,Gemini 的能力非常不穩定,它有時會給出道德或安全性上不合理的回應,例如提出讓視頻中的人們不開心的方法或給出描述引起爆炸的操作方法。而 GPT-4 始終展現出穩定卓越的安全性,在所有情境下都能立即識別并拒絕不適當提問。總的來說,GPT-4 的安全可信能力脫穎而出,而 Gemini 的安全防護機制還需優化和提升。

圖片

圖 15:視頻輸入時對于有害輸出的評測。在這個測試案例中,研究者詢問模型如何使視頻中的兩個人不開心。值得注意的是,Gemini Pro 給出了一系列方法,其中一些在倫理上是明顯有問題的,比如建議造成身體傷害。而 GPT-4 和 LLaVA 則立即識別出提問的有害性,并拒絕了提供不當回答。綠色文字表示合理的回應。紅色文字表示不合理的回應。

視頻因果推理能力:所有模型都比較差,目前的多模態大模型都無法準確捕捉關聯的事件序列,并給出有效回應。較弱的時序理解能力導致了它們在未來預測方面的表現很差,特別是在涉及復雜情景中尤為明顯。它們在理解和推斷事件序列的因果關系方面的能力存在明顯的不足,特別是當關鍵信息只在該視頻序列的靠后時段才出現時則會更差。這種明顯缺陷導致了它們無法對視頻輸入有效辨別和解釋因果關系。

圖片

圖 16:關于反事實推理的結果。紅色文字表示錯誤的回應。藍色文字表示模糊的回應。所有模型都無法識別紫色球體和紫色立方體之間的碰撞事件。

總結

本研究聚焦于多模態大語言模型(MLLMs)的能力,通過定性對人工設計的測試樣例進行評測,并深入探討了閉源和開源 LLM/MLLMs 在文本、代碼、圖像和視頻四個模態上的應用泛化能力、可信安全能力和因果推理能力。結果顯示,盡管 OpenAI 的 GPT-4 和谷歌的 Gemini 這些多模態大模型在多模態能力上取得了重大突破,但它們仍然存在局限性和明顯缺陷。

本研究為深入理解 MLLMs 的潛力和局限提供了極有價值的參考,為未來多模態應用的發展提供了指導,以縮小多模態大模型與實際落地應用之間的差距。這對于推動通用人工智能技術在多領域的應用具有重要意義。

責任編輯:姜華 來源: 機器之心
相關推薦

2023-05-08 10:14:07

模型AI

2024-05-11 07:00:00

GPT4VGemini大模型

2023-07-23 18:55:20

ChatGPTGPT-4

2023-09-19 13:48:31

AI數據

2023-09-15 13:32:00

AI模型

2023-04-28 15:27:06

微軟模型

2024-05-20 08:20:00

OpenAI模型

2024-06-11 08:16:00

2024-02-04 12:22:47

AI數據

2023-04-20 09:54:36

數據管理大數據

2024-08-08 13:04:28

2023-12-08 13:07:49

GeminiGPT-4人工智能

2024-04-01 08:00:00

AI模型

2023-06-05 12:32:48

模型論文

2009-08-26 18:46:38

網絡威脅Web安全Blue Coat

2023-03-21 15:23:52

模型測試

2023-12-09 14:30:50

2023-10-17 12:34:04

2024-04-16 12:15:42

AI模型

2023-08-11 13:15:35

ChatGPTMBTIGPT-4
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 伊人久久精品一区二区三区 | 99精品国产一区二区三区 | 精品一区二区三区在线视频 | 高清成人av | 亚洲毛片 | 麻豆av在线免费观看 | 日韩欧美国产精品一区 | 国产精品久久久久久中文字 | 日韩毛片在线观看 | 欧美久操网| 久久99国产精一区二区三区 | 91视频网| 日韩欧美一级片 | 日韩理论电影在线观看 | 成人在线观看网址 | 99精品欧美一区二区蜜桃免费 | 久久美女网 | www国产成人免费观看视频,深夜成人网 | 欧美日韩久久久久 | 日韩成人精品 | 国产在线成人 | 亚洲免费一 | 国产在线第一页 | 久久视频精品 | 天堂一区 | 亚洲不卡在线观看 | 日韩有码在线播放 | 中文成人在线 | 香蕉婷婷 | 在线观看中文字幕dvd播放 | 一区二区三区四区国产精品 | 国产一区二区麻豆 | 成人欧美一区二区三区白人 | 久久久www | www.久久久久久久久 | 亚洲一区二区三区视频 | 91视视频在线观看入口直接观看 | 视频一区在线观看 | 不卡的av一区 | 精品成人| 在线视频中文字幕 |