成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了

發布于 2024-7-19 11:58

瀏覽

0收藏

這個話題主要是由《歌手2024》欄目引發的，孫楠與外國歌手的微小分數差異，引發了網友關于 13.8% 和 13.11% 誰大誰小的爭論。

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

很多網友給出了自己認為 13.11 > 13.8 理由，看似合理，實則漏洞百出。

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

這個小學四年級的知識點，一下子就成為了全民熱議的話題。很多網友還舉例 AI 給出的結果也是 13.11 大，一下子激起我的興趣，這么簡單的問題，AI 竟然回答錯誤了。

國內模型測試

Kimichat：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

通義千問：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

騰訊元寶：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

文心一言：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

智譜清言：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

訊飛星火：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

商湯商量：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

國外模型測試

GPT-4O：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

Gemini：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

Claude-3.5：

13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了-AI.x社區

原因分析

看到測試結果，國內模型 7 個回答錯誤 4 個，國外模型全軍覆沒，這是代表國內模型更強嘛？其實并不然，很多網友早起測試通義千問也是回答 13.11 更大，后續應該是開發團隊針對這個問題優化了。國內很多模型應該都是針對性優化過后，現在才能回答正確。

只是國內的熱議并未傳播到國外，所以國外 AI 模型并未針對這個問題優化過，導致現在強如 GPT-4O 和 Claude-3.5 這兩個地表最強 AI 模型都回答錯誤。

那么 AI 模型為什么會普遍回答錯誤呢？其實從很多模型的回答中也能猜到原因，主要是因為它們對數字的解讀方式與人類不同，以及訓練數據中存在的偏差。

數字解讀方式：大語言模型將數字分解為獨立的 token 進行比較，忽略了小數點后數字的實際意義。
訓練數據偏差：訓練數據中包含了大量軟件版本號的比較，如“9.11”和“9.9”，在這種場景下，“9.11”確實排在“9.9”之后。這一常見于編程領域的規則，被AI模型錯誤地應用到了數學比較中。

大語言模型在數值比較方面的局限性，提醒我們在依賴這些模型進行決策時，需要謹慎并考慮多種可能性。

本文轉載自 ??AI探索者知白??，作者：知白

標簽

已于2024-7-19 15:50:58修改

贊

收藏

回復

舉報

回復

相關推薦

DeepMind升級Transformer，前向通過FLOPs最多可降一半

輕薄滴假象 ? 2998瀏覽 ? 0回復
GPT-4o再秀神操作，“復現”OpenAI總裁講課，網友當真了

Crystalcxt ? 2893瀏覽 ? 0回復
新一代智能助手GPT-4o與Project Astra孰弱孰強，OpenAI與谷歌拉開競賽帷幕

xuxiangda ? 5036瀏覽 ? 0回復
牽手GPT-4o后能力簡直王炸！奧特曼也來build現場了！

51CTO技術棧 ? 3098瀏覽 ? 0回復
GPT-4o 的數學又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！

戀戀青鳥 ? 3515瀏覽 ? 0回復
GPT-4o熱潮來襲：探索圖生文本的奧秘（多模態大模型系列之一）

魚蟲子 ? 7881瀏覽 ? 0回復
GPT-4o做Code Review可行嗎？

51CTO技術棧 ? 3708瀏覽 ? 0回復
現在，所有人都能免費用GPT-4o了！

duhorse ? 4935瀏覽 ? 0回復
GPT-4o與SQL：大模型改變自身架構的能力有多強？

51CTO技術棧 ? 2466瀏覽 ? 0回復
GPT-4o背后可能的語音技術

魚蟲子 ? 3407瀏覽 ? 0回復
GPT-4o不香了

Crystalcxt ? 3329瀏覽 ? 0回復
GPT-4o 到底有多強？模型圖文多模態能力評測結果全公開

戀戀青鳥 ? 8678瀏覽 ? 0回復
開發者終于可以定制自己的GPT-4o了！

51CTO技術棧 ? 2650瀏覽 ? 0回復
Fireworks AI 發布 f1：在硬編碼、聊天和數學基準方面超過 GPT-4o 和 Claude 3.5 Sonnet

Halo咯咯 ? 2869瀏覽 ? 0回復
小模型界o1來了：微軟推出Phi-4，數學推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個重要推斷

51CTO技術棧 ? 2454瀏覽 ? 0回復
微軟發布Phi-4，最強小模型！參數極小、超GPT-4o

Aceryt ? 2230瀏覽 ? 0回復
GitHub Copilot免費了，可無條件使用GPT-4o 和Claude 3.5 Sonnet等高級模型

Syrupup ? 8142瀏覽 ? 0回復
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準測試中超越了 GPT-4o

Halo咯咯 ? 1.2w瀏覽 ? 0回復
部署一個大模型，到底需要多大機器？

hm673c38238a021 ? 1840瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek 也能生圖了？解鎖一個生圖隱藏用法 2025-05-16 06:21:13發布
證件照再也不用線下拍了，輕松制作一個免費的 AI 工作流實現，你想要的紅底、白底、藍底我都有..... 2025-04-18 06:15:58發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：基于 Kimi 一鍵整理實體及其關系，并制作知識圖譜

下一篇：國內大模型文心一言、通義千問、豆包、混元大模型、訊飛星火、Kimichat、智譜清言，到底該用哪個？

社區精華內容

目錄

主站蜘蛛池模板：亚洲理论在线观看电影 | 免费看91 | 91porn成人精品| 99热热热 | 免费国产网站 | 成人精品视频在线观看 | 国内精品视频一区二区三区 | 免费一区在线 | 日韩av在线不卡 | 日韩精品 | 国产高清一区二区三区 | 久色| 久久久女女女女999久久 | 99精品一区二区三区 | 午夜一区二区三区在线观看 | 一区二区三区av夏目彩春 | 91视视频在线观看入口直接观看 | 成人区精品一区二区婷婷 | 一级毛片视频在线观看 | 久久精品成人 | 1级毛片| 日韩精品一区二区三区四区 | 国产99视频精品免费视频7 | 亚洲人成一区二区三区性色 | 成人综合一区 | 中文字字幕一区二区三区四区五区 | 国产日韩欧美中文 | 日本福利在线观看 | 黄色一级视频免费 | 久久久www成人免费无遮挡大片 | 国产一区二区三区在线 | 日韩精品在线播放 | 美女视频一区 | 亚洲一区二区高清 | 精品9999| 99久久精品国产一区二区三区 | 欧美一区二区三区视频在线观看 | 成人av电影在线 | 久操福利 | 亚洲精品一区二区 | 最新91在线 |