成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CMU權威對比Gemini,GPT-3和Mistral8×7B!GPT-3.5依舊拿捏Gemini,開源模型差距依然不小

人工智能 新聞
谷歌發布Gemini以后,一直宣稱Gemini Pro要優于GPT-3.5,而CMU的研究人員通過自己實測,給大家來了一個客觀中立第三方的對比。結果卻是GPT-3.5幾乎還是全面優于Gemini Pro,不過雙方差距不大。

谷歌最近發布的Gemini掀起了不小的波瀾。

畢竟,大語言模型領域幾乎是OpenAI的GPT一家獨大的局面。

不過作為吃瓜群眾,當然希望科技公司都卷起來,大模型都打起來!

所以,作為科技巨無霸谷歌的親兒子,Gemini自然承受了很高的期待。

雖然Gemini發布之后發生了一些奇奇怪怪的事情吧,什么視頻造假啦,認為自己是文心一言啦。

不過問題不大,咱們不看廣告看療效。

最近在CMU,研究人員進行了一組公正、深入和可重復的實驗測試,重點比較了Gemini和GPT在各項任務中的優劣,另外還加入了開源的競爭對手Mixtral。

論文地址:https://arxiv.org/abs/2312.11444

代碼地址:https://github.com/neulab/gemini-benchmark

研究人員在論文中對Google Gemini的語言能力進行了深入地探索,

從第三方的角度,對OpenAI GPT和Google Gemini模型的能力進行了客觀比較,公開了代碼和比較結果。

我們可以從中發現兩個模型分別擅長的領域。

研究人員比較了6種不同任務的準確性:

- 基于知識的QA(MMLU)

- 推理(BIG-Bench Hard)

- 數學(GSM8k、SVAMP、ASDIV、MAWPS)

- 代碼生成(HumanEval,ODEX)

- 翻譯 (FLORES)

- Web指令跟蹤(WebArena)

為了公平起見,實驗中嘗試控制所有變量,對所有模型使用相同的提示、生成參數和評估。

評測中使用了LiteLLM以統一的方式查詢模型,使用try_zeno做全面深入的分析。

測試模型

研究比較了Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo以及Mixtral,指出了他們在能力上的不同。

特點:Gemini Pro是多模態的,通過視頻、文本和圖像進行訓練。GPT-3.5 Turbo和GPT-4 Turbo則主要基于文本訓練,其中GPT-4 Turbo是多模態的。

測試復現方法

更方便的復現方法:點擊下文測試任務的鏈接即可進入CMU集成好的基于Zeno的AI評估平臺進行驗證

圖片

GitHub鏈接:

https://github.com/neulab/gemini-benchmark]

具體測試任務

基于知識的問答(Knowledge-based QA)

基于UC伯克利2020年提出的MMLU(Massive Multitask Language Understanding)大模型評測進行評測

該測試涵蓋57項任務,包括初等數學、美國歷史、計算機科學、法律等。任務涵蓋的知識很廣泛,語言是英文,用以評測大模型基本的知識覆蓋范圍和理解能力。

用5-shot和思維鏈提示詞的MMLU任務總體準確率如下圖,Gemini Pro均略微落后GPT-3.5 Turbo

文章也指出使用思維鏈提示的性能差異不大,可能是因為 MMLU 主要是基于知識的問答任務,可能不會從更強的面向推理的提示中顯著受益。

下圖顯示Gemini-pro、gpt3.5-turbo、gpt-4-turbo對于多選題答案輸出的比例,結果顯示Gemini-pro、gpt3.5-turbo都有一些答案偏見,尤其Gemini-pro十分偏向D選項

表明 Gemini 尚未針對解決多選題問題,進行大量指令調整,這可能導致模型在答案排序方面存在偏差

圖片

MMLU的57個子任務中只有兩項Gemini-pro超過GPT3.5-turbo。

下圖顯示gpt3.5最領先Gemini-pro的前四個任務的準確性,和Gemini-pro超過gpt3.5的兩個任務

圖片

通用推理(General-purpose Reasoning)

基于BBH(BIG-Bench Harch)這一通用推理數據集進行測試,其中包括算術、符號和多語言推理以及事實只是理解任務。

首先,從如下總體精度圖中可以看到Gemini Pro實現的精度略低于GPT 3.5 Turbo,并且遠低于GPT 4 Turbo。相比之下,Mixtral 模型的精度要低得多。

圖片

接下來進行一些細節分析,首先根據問題的長度測試一下準確性,結果如下圖。

圖片

作者發現Gemini Pro在更長、更復雜的問題上表現不佳,而GPT模型對此更穩健。

GPT-4 Turbo的情況尤其如此,即使在較長的問題上,它也幾乎沒有表現出性能下降,這表明它具有強大能力來理解更長和更復雜的查詢。

GPT-3.5 Turbo的穩健性處于中間位置。Mixtral在問題長度方面特別穩定,但總體準確率較低。

下圖再具體列出了GPT-3.5 Turbo表現優于Gemini Pro最多的任務。

圖片

Gemini Pro在tracking_shuffled_objects任務上表現很糟糕

在某些任務中,即multistep_arithmetic_two、salient_translation_error_detection、snarks、disambiguition_qa和兩個tracking_shuffled_objects任務中,Gemini Pro的表現甚至比Mixtral模型還要差。

當然,有一些任務Gemini Pro優于GPT3.5。

下圖顯示了 Gemini Pro 比 GPT 3.5 Turbo 表現優秀的六項任務。這些任務需要世界知識(sports_understanding)、操作符號堆棧(dyck_languages)、按字母順序排序單詞(word_sorting)和解析表(penguins_in_a_table)等。

圖片

文章在此部分最后表示,對于通用推理任務,似乎沒有Gemini和GPT都沒有絕對優勢,所以可以都嘗試一下

數學問題

基于四個數學應用題評測進行:

    - GSM8K,小學數學基準

    - SVAMP 數據集,通過不同的詞序生成問題來檢查穩健的推理能力,

    - ASDIV 數據集,具有不同的語言模式和問題類型 

    - MAWPS 基準,由算術和代數應用題組成。

下圖顯示四項數學推理任務的總體準確性

圖片

從圖中可以看出,在 GSM8K、SVAMP 和 ASDIV 任務上,Gemini Pro的精度略低于 GPT-3.5 Turbo,并且遠低于 GPT-4 Turbo,這些任務都包含多樣化的語言模式。

對于 MAWPS 任務,所有模型都達到了 90% 以上的準確率,盡管 Gemini Pro 仍然比GPT模型稍差。

有趣的是,在此任務中,GPT-3.5 Turbo的表現以微弱優勢勝過GPT-4 Turbo。

相比之下,Mixtral模型的準確率比其他模型要低得多。

和之前在BBH上的推理任務一樣,我們可以看到較長任務推理性能會下降。

并且和以前一樣,GPT 3.5 Turbo 在較短的問題上優于 Gemini Pro,但下降得更快,Gemini Pro 在較長的問題上實現了類似(但仍稍差)的準確度。

不過在思維鏈(CoT)長度超過100的最復雜例子中,Gemini Pro優于GPT 3.5 Turbo,但在較短示例中表現不佳。

圖片

最后,文章研究了比較模型在生成不同位數答案時的準確性。

根據答案中的位數創建三個類別,一位數、兩位數、三位數答案(MAWPS 任務除外,其答案不超過兩位數)。

如下圖所示,GPT-3.5 Turbo似乎對于多位數數學問題更加穩健,而Gemini Pro在位數較多的問題上性能下降更多。

圖片

代碼生成

在此類別中,文章使用兩個代碼生成數據集HumanEval和ODEX檢查模型的編碼能力。

前者測試對Python標準庫中一組有限函數的基本代碼理解。

后者測試使用整個Python生態系統中更廣泛的庫的能力。

它們都將人工編寫的英語任務描述(通常帶有測試用例)作為輸入。這些問題用來評估對語言、算法和初等數學的理解。

總體而言,HumanEval有164個測試樣本,ODEX有439個測試樣本。

代碼生成的總體情況如下圖:

Gemini Pro在兩項任務上的Pass@1 成績都低于GPT-3.5 Turbo,遠低于GPT-4 Turbo。

圖片

接下來,分析最佳解決方案長度與模型性能之前的關系,因為解決方案長度可以一定程度上表明相應代碼生成的任務的難度。

本文發現,當解決方案長度低于100(即代表處理簡單問題)時,Gemini Pro 可以達到與 GPT-3.5 相當的 Pass@1,但當解決方案變得更長(即處理更難的問題時)時,它會大幅落后。

圖片

文章還分析了每個解決方案所需的庫如何影響模型性能,結果如下圖顯示:

根據結果分析,在大多數使用庫的情況下,例如mock、pandas、numpy和datetime,Gemini Pro的表現比GPT-3.5差。

然而,它在 matplotlib 情況下優于 GPT-3.5 和 GPT-4,在通過代碼執行繪圖可視化時顯示出更強的功能。

圖片

下面展示幾個具體的失敗案例:

首先, Gemini在從Python API中正確選擇函數和參數方面稍差一些

比如,當你給出如下指令時

def f_3283984():
  """decode a hex string '4a4b4c' to UTF-8."""

Gemini Pro 生成以下代碼,導致類型不匹配錯誤。

bytes(bytearray.fromhex('4a4b4c'), 'utf-8')

相比之下,GPT 3.5 Turbo 使用以下代碼,達到了預期的結果:

hex_string = '4a4b4c'
decoded_string = bytes.fromhex(hex_string).decode('utf-8')
return decoded_string

此外,Gemini Pro的錯誤比例較高,所實現的代碼在語法上是正確的,但與復雜的意圖不正確匹配。

例如,對于以下指令

from typing import List
def remove_duplicates(numbers: List[int]) -> List[int]:
  """From a list of integers, remove all elements that occur more than once.
  Keep order of elements left the same as in the input.
  >>> remove_duplicates([1, 2, 3, 2, 4])
  [1, 3, 4]
  """

Gemini Pro 給的代碼,只提取唯一的數字,而不刪除那些出現多次的數字。

seen_numbers = set()
unique_numbers = []
for number in numbers:
  if number not in seen_numbers:
    unique_numbers.append(number)
    seen_numbers.add(number)
return unique_numbers

機器翻譯(Machine Translation)

基于FLORES-200 機器翻譯基準評估模型的多語言能力,特別是在各種語言對之間翻譯的能力。

針對所有選定的語言對,對測試集中的1012個句子進行評估。作為這項研究的第一步,本文將范圍限制為僅從英語到其他語言(ENG→X)的翻譯。

結果顯示如下圖,Gemini Pro在翻譯任務上,總體優于其他模型,在 20 種語言中的 8 種語言上均優于 GPT-3.5 Turbo 和 GPT-4 Turbo,并在4種語言上取得了最高性能。

圖片

雖然在非英語語言翻譯方面尚未超越專用機器翻譯系統,但通用語言模型也顯示出了強競爭力的性能

零樣本提示和5樣本提示Gemini Pro在翻譯任務上均優于其他模型

圖片

網頁代理(Web Agents)

最后,本文驗證每個模型充當網絡導航代理(web navigation agent)的能力,這是一項需要長期規劃和復雜數據理解的任務。

使用 WebArena ,這是一個基于命令執行的模擬環境,其中成功標準基于執行結果。分配給代理的任務包括信息查找、站點導航以及內容和配置操作。

這些任務跨越各種網站,包括電子商務平臺、社交論壇、協作軟件開發平臺(例如 gitlab)、內容管理系統和在線地圖。

如下圖文章從總體結果可以看出,Gemini-Pro 的性能與 GPT-3.5-Turbo 相當,但稍差。

圖片

與 GPT-3.5-Turbo 類似,當Prompts提到任務可能無法完成時(UA 提示),Gemini-Pro 的表現會更好。通過 UA 提示,Gemini-Pro 的總體成功率達到 7.09%。

之后文章又按照網絡進行細分,如下圖,可以看到 Gemini-Pro 在 gitlab 和地圖上的表現比 GPT-3.5-Turbo 差,而在購物管理、reddit 和 Shopping 上則接近 GPT-3.5-Turbo 。它在多站點任務上的表現比 GPT-3.5-Turbo 更好。

圖片

測試結果總覽

在本文中,作者對 Google 的 Gemini 模型進行了第一次公正、深入的研究,并將其與 OpenAI 的 GPT 3.5 和 4 模型以及開源 Mixtral 模型進行了比較。

CMU評測的主要結果展示,黑色粗體表示最佳模型,下劃線為第二

在最后,作者疊了一些甲:

指出他們工作是針對不斷變化且不穩定的API,所有結果均為截至 2023 年 12 月 19 日撰寫本文時的最新結果,但隨著模型和周圍系統的升級,未來可能會發生變化。

結果可能取決于其選擇的特定提示和生成參數

 作者測試時沒有像谷歌意義使用多個樣本和自我一致性(self-consistency),不過作者認為對不同模型使用一致的prompts的多項任務上進行的測試,恰恰可以合理地展示被測模型的穩健性和廣義指令的遵循能力

作者指出數據泄露對當前大模型評測任務的困擾,雖然他們沒有明確測量這種泄露,但他們也嘗試過各種方法來緩解這個問題

在展望中,作者也提出建議,希望大家在使用Gemini Pro之前,根據這篇論文,自己評估Gemini Pro是否如宣傳所說與GPT 3.5 Turbo相媲美。作者也表示Gemini的Ultra版本尚未發布,等其發布后也會驗證其是否如報道所說與GPT4相當。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-20 22:17:19

GeminiGPT-3.5谷歌

2023-12-20 15:32:02

模型數據

2021-03-23 15:21:00

人工智能機器學習技術

2024-03-25 08:00:00

2021-07-19 10:56:36

GPE-3OpenAI微軟

2024-03-18 07:01:42

2023-12-14 13:04:00

訓練數據

2024-01-02 14:07:00

2024-02-07 12:39:00

AI數據

2023-03-01 16:15:16

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2023-09-25 09:58:25

AI框架

2023-06-21 13:37:41

模型研究

2023-07-22 13:09:51

模型開源

2023-04-28 09:07:28

2023-09-06 16:44:03

2023-12-09 14:30:50

2024-07-19 09:26:12

2023-10-16 13:28:00

數據AI

2023-12-12 13:57:00

GPT-3.5MistralAI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区二区三区四区五区午夜 | 亚洲色图第一页 | 日本久久黄色 | 久久精品国产99国产精品 | a在线观看免费 | 欧美色综合一区二区三区 | 亚洲精品福利在线 | 日韩免费视频一区二区 | 久久久www成人免费无遮挡大片 | 宅男伊人 | 午夜在线免费观看视频 | 久久久久久综合 | 在线日韩中文字幕 | 在线播放中文字幕 | 日批免费观看 | 狠狠艹| 国产亚洲一区二区精品 | 天天插天天操 | 精品视频一区二区 | 久久精品国产一区二区三区不卡 | 热99| 91精品国产91久久久久久最新 | 一二三区视频 | 久久美女视频 | 精品国产一区二区三区成人影院 | 美女国内精品自产拍在线播放 | 国产一区二 | 欧美一区二区三区视频在线 | 日韩成人免费 | 亚洲精色 | 久久久久久亚洲精品不卡 | 欧美男人亚洲天堂 | 97精品国产一区二区三区 | 91福利在线导航 | 国产福利91精品 | 国产精品久久精品 | 一区二区在线观看av | 日韩中文字幕免费在线观看 | 免费一级网站 | 成人不卡 | 天天干天天插 |