成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想

發布于 2025-3-27 07:57
瀏覽
0收藏

國內Qwen是汪峰,國外Google是汪峰,昨天Google更新,放出新模型Gemini 2.5 Pro,凌晨OpenAI更新GPT4-o,上新圖像生成功能,難受住了。

GPT4-o沒測,但是網上的效果也太好了吧,倒影啥的都太自然了吧。。

Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

這篇主要測試Gemini2.5 Pro的能力,整體測試通過Google的AI Studio上測試,每天免費50次,正常使用夠了,爽玩還是不夠的。

https://aistudio.google.com/

Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

Gemini2.5 Pro在Benchmark上效果還是很好的,甚至在lmsys的對戰榜單上,現在是第一,當然現在投票還不夠多。

Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

先說一下整體的測試體驗:

  • 文本效果很不錯,整體體驗很絲滑,速度也很快;
  • 代碼也很強,貪吃蛇、彈球游戲、UI設計都很強,堪比Claude;
  • 但多模態理解的表格解析任務依然不理想;
  • think的內容英文為主,即使問題是中文-回答是中文,但think大部分是英文;

正式測試開始:

  • 常規測試

將“I love Gemini 2.5 Pro”這句話的所有字母反過來寫Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

  • 什么東西,我剛要開噴,發現它回答的確實沒有問題,僅修改字母,空格、數字和標點符號不修改,我才意識到這題我出的有bug。
  • 修改問法,“字母”換成“內容”,是我想要的,也沒問題!

    Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

  • 依舊弱智吧
  • 生蠔煮熟了叫什么?Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區
  • 說明:沒問題,只要沒回答熟蠔,我是可以接受的!
  • 用水來兌水,得到的是濃水還是稀水Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區
  • 說明:沒問題,是水,是水
  • 依舊小紅,依舊老鷹
  • 小紅有2個兄弟,3個姐妹,那么小紅的兄弟有幾個姐妹Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

    Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

    Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

未來的某天,李同學在實驗室制作超導磁懸浮材料時,意外發現實驗室的老鼠在空中飛,分析發現,是因為老鼠不小心吃了磁懸浮材料。第二天,李同學又發現實驗室的蛇也在空中飛,分析發現,是因為蛇吃了老鼠。第三天,李同學又發現實驗室的老鷹也在空中飛,你認為其原因是Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

  • 說明:這題確實難,老鷹反正不會飛!
  • 數學
  • 2024年高考全國甲卷數學(理)試題Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

    Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

R1滿血測試題:在平面四邊形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。將\triangle ACD沿AC翻折至\triangle ACP,其中P為動點。 求二面角A - CP - B的余弦值的最小值。Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

  • 說明:沒對。
  • 大數計算:178939247893 * 299281748617等于多少?Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區
  • 說明:沒對,答案是53553251005627872913981。但側面有個code execution,開了之后會調用工具,可以計算對,所以大數計算,感覺還是要依賴工具。
  • Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

倫理、數學、生物終極測試:有一天,一個女孩參加數學考試只得了 38 分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數改成了 88 分。她的父親看到試卷后,怒發沖冠,狠狠地給了她一巴掌,怒吼道:“你這 8 怎么一半是綠的一半是紅的,你以為我是傻子嗎?”女孩被打后,委屈地哭了起來,什么也沒說。過了一會兒,父親突然崩潰了。請問這位父親為什么過一會崩潰了?Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

  • 說明:沒對,女兒紅綠色盲,并且不是親生。
  • 代碼
  • 貪吃蛇( 來自@洛小山,雖然本人不擅長,但是本人會抄 )Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區
  • 彈球( 來自@洛小山和@卡茲克,雖然本人不擅長,但是本人會抄 )Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區
  • 卡片:生成一個打工人時鐘的html頁面Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區
  • 多模態表格解析
  • 中等表格Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

    Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

  • 說明:上為原表,下為識別,表格結果有問題。
  • 復雜表格Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

    Gemini2.5 Pro測試,代碼能力飆升,但多模態表格解析依舊不理想-AI.x社區

  • 說明:上為原表,下為識別,表格結果有問題。

本文轉載自??NLP工作站??,作者:NLP工作站

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91精品久久久久久久久久入口 | 国产欧美精品区一区二区三区 | 国产精品久久久久一区二区 | 欧洲精品在线观看 | 日韩av成人在线 | 欧美夜夜 | 日韩av一区二区在线观看 | 欧美伊人久久久久久久久影院 | 亚洲欧美日韩在线不卡 | 久久久久久久一区二区三区 | 久久精品国内 | 国产真实精品久久二三区 | 国产福利91精品 | 欧美一区精品 | 国产天天操 | 九色在线 | 精品视频在线免费观看 | 日韩影院在线 | 欧美三区在线观看 | 久在线 | 草比网站 | 网站国产 | 中国免费黄色片 | 亚洲成人精品免费 | 天天插天天射天天干 | 欧美日韩国产精品一区二区 | 亚洲一区中文字幕 | 欧美精品成人一区二区三区四区 | 久久久久久久久毛片 | 伊人伊成久久人综合网站 | 成年人网站国产 | 91亚洲国产成人久久精品网站 | 欧美在线国产精品 | 午夜三区 | 最新中文字幕在线播放 | 欧美亚洲视频 | 亚洲欧美在线观看 | 免费观看国产视频在线 | 成人在线免费网站 | 免费成人毛片 | 日本一区二区三区四区 |