成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<td id="geiqw"></td>

<dl id="geiqw"><xmp id="geiqw"></xmp></dl>

<code id="geiqw"></code>

<nav id="geiqw"><dl id="geiqw"></dl></nav>

<cite id="geiqw"></cite>

<abbr id="geiqw"></abbr>

<cite id="geiqw"></cite>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Gemini Pro還不如GPT-3.5，CMU深入對比研究：保證公平透明可重復

2023-12-20 22:17:19

目前Gemini最高版本Ultra版尚未發布，到時CMU團隊也有意繼續這項研究。你覺得Gemini Ultra能達到GPT-4水平么？

谷歌Gemini實力到底如何？卡耐基梅隆大學來了場專業客觀第三方比較。

為保證公平，所有模型使用相同的提示和生成參數，并且提供可重復的代碼和完全透明的結果。

不會像谷歌官方發布會那樣，用CoT@32對比5-shot了。

一句話結果：Gemini Pro版本接近但略遜于GPT-3.5 Turbo，GPT-4還是遙遙領先。

在深入分析中還發現Gemini一些奇怪特性，比如選擇題喜歡選D……

不少研究者表示，太卷了，Gemini剛發布沒幾天就搞出這么詳細的測試。

六大任務深入測試

這項測試具體比較了6大任務，分別選用相應的數據集：

知識問答：MMLU
推理：BIG-Bench Hard
數學：GSM8k、SVAMP、ASDIV、MAWPS
代碼：HumanEval、ODEX
翻譯：FLORES
上網沖浪：WebArena

知識問答：喜歡選D

從結果可以看出，使用思維鏈提示在這類任務上不一定能帶來提升。

MMLU數據集里都是多選題，對結果進一步分析還發現奇怪現象：Gemini更喜歡選D。

GPT系列在4個選項上的分布就要平衡很多，團隊提出這可能是Gemini沒針對多選題做大量指令微調造成的。

另外Gemini的安全過濾比較嚴重，涉及道德問題只回答了85%，到了人類性行為相關問題只回答了28%。

Gemini Pro表現超過GPT-3.5的兩個科目是安全研究和高中微觀經濟學，但差距也不大，團隊表示分析不出來什么特別的。

推理：長問題不擅長

Gemini Pro在更長、更復雜的問題上表現不佳，而GPT系列對此更穩健。

GPT-4 Turbo尤其如此，即使在較長的問題上也幾乎沒有性能下降，表明它具有理解復雜問題的強大能力。

如果按問題類型來分析，Gemini特別不擅長“tracking_shuffled_objects”這類問題，也就人們交換物品，最后讓AI判斷誰擁有哪些物品。

Gemini比較擅長的任務是，需要世界知識的體育運動理解、操作符號堆棧、按字母順序排序單詞，解析表格。

數學：復雜任務反超

這一次問題本身太長Gemini Pro和GPT-3.5表現就一起下降，只有GPT-4還能保持一貫水準。

但使用的思維鏈提示長度最長時，Gemini反超GPT-3.5。

代碼：擅長matplotlib

對于代碼問題，Gemini在參考答案長的問題上表現很差。

按調用的庫來分類，GPT系列在大多數類型更強，但matplotlib就完全不行。

翻譯：只要回答了，質量就很高

翻譯任務上，有12種類型Gemini拒絕回答，但是只要回答了的翻譯質量都很高，整體表現超過GPT-4。

Gemini拒絕翻譯的類型主要涉及拉丁語、阿拉伯語。

網絡導航：擅長跨站點沖浪

WebArena給AI模擬了一個互聯網環境，包括電子商務、社交論壇、GitLab協作開發、內容管理系統和在線地圖等，需要AI查找信息或跨站點完成任務。

Gemini在整體表現不如GPT-3.5 Turbo，但在跨多個站點的任務中表現稍好。

網友：但是它免費啊

最后，CMU副教授Graham Neubig承認了這項研究的一些局限性。

基于API的模型行為可能隨時變化
只嘗試了有限數量的提示，對不同模型來說適用的提示詞可能不一樣
無法控制測試集是否泄露

谷歌大模型推理團隊負責人周登勇指出，對于推理任務把Gemini的溫度設置為0可以提高5-10個百分點。

這項測試中除了Gemini與GPT系列，還搭上了最近很受關注的開源MoE模型Mixtral。

不過強化學習專家Noam Brown認為可以忽略其中Mixtral的結果，因為用的是第三方API而非官方實現。

Mistral AI創始人也來給團隊提供了官方版調用權限，認為能得到一個更好的結果。

總得來，雖然Gemini Pro還是不如GPT-3.5，但是它勝在每分鐘調用不超過60次就免費。

所以還是有不少個人開發者已經轉換了陣營。

目前Gemini最高版本Ultra版尚未發布，到時CMU團隊也有意繼續這項研究。

你覺得Gemini Ultra能達到GPT-4水平么？

論文：https://arxiv.org/abs/2312.11444。

參考鏈接：
[1]https://twitter.com/gneubig/status/1737108977954251216。

責任編輯：姜華來源：量子位

Gemini GPT-3.5 谷歌

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：最新黄色在线观看 | 亚洲欧美一区二区三区1000 | 久久爱黑人激情av摘花 | 国产一区二区三区免费 | 福利网址| 不卡的av在线 | www成人免费视频 | 毛片在线免费播放 | 精品国产视频 | 国产精品久久久久一区二区三区 | 日本三级全黄三级三级三级口周 | 中文字幕久久精品 | 欧美二三区 | 情侣av| 欧美1区2区 | 99精品电影| 黄色在线免费网站 | 日韩高清中文字幕 | 午夜免费精品视频 | 国产精品久久久久婷婷二区次 | 黄色免费看 | 日韩在线不卡视频 | 99这里只有精品视频 | 国产97碰免费视频 | 亚洲精品国产a久久久久久午夜影院网站 | 在线播放亚洲 | 蜜月aⅴ国产精品 | 国产精品美女久久久久久不卡 | 69热视频在线观看 | 密桃av| 人人干视频在线 | 夜夜夜久久久 | 日韩在线免费看 | 91在线电影 | 国产精品久久久久无码av | 91av在线影院 | 在线观看黄色电影 | 精品日韩 | 亚洲成人毛片 | 2018中文字幕第一页 | 99精品视频免费观看 |

<code id="soiyi"></code>

<button id="soiyi"><input id="soiyi"></input></button>

<tfoot id="soiyi"><delect id="soiyi"></delect></tfoot>