成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型數學能力翻車實錘!Apple新研究暴露真相!

發布于 2024-10-25 14:01
瀏覽
0收藏

這篇文章的結論是:LLM 無法進行真正的推理。并做出了一系列的實驗論證,大模型僅僅是記住了目標序列。

10月份有很多文章在論證這個事情。比如之前寫過一篇推文介紹大模型在規劃的能力上表現仍然非常糟糕(現實再次給 大模型 帶來沉重打擊)。后來在《 PROCBENCH: BENCHMARK FOR MULTI-STEP REASONING AND FOLLOWING PROCEDURE》中驗證了一個結論:在沒有相關領域經驗或知識的情況下,LLM/LRM 似乎無法遵循基本指令,尤其是在指令長度增加時。再后來,《APeek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners》中發現LLM對序列中不起眼得變化非常敏感。例子中對“Linda”和“Bob”之間進行切換之后,LLM就失敗了。

大模型數學能力翻車實錘!Apple新研究暴露真相!-AI.x社區

論文中,為了論證LLM是靠記憶還是能推理。他們創建了一個替代數據集-GSM-Symbolic,這個數據集使用了原始問題中的模板,允許他們修改序列中的特定的信息,從而在推理上生成具有微小變化的相同問題。看下圖,就是對一些關鍵信息使用占位符。

大模型數學能力翻車實錘!Apple新研究暴露真相!-AI.x社區

結果出來之后,性能均有所降低,即使是前沿的大模型也不例外。但是模型越大,越不容易出現此類問題。

大模型數學能力翻車實錘!Apple新研究暴露真相!-AI.x社區

接下來,不滿足于只替換一些關鍵信息,他們又嘗試了增加問題難度。這種,所有模型都是持續下降的,跟預期一致,而且方差也變高了。也就是說,這些模型的智能不僅被夸大了,而且隨著復雜性的增加,魯棒性也在降低。

大模型數學能力翻車實錘!Apple新研究暴露真相!-AI.x社區

最后一個實驗是,在原始問題中加入一些看似相關實際確無關信息。如下kiwi的例子,大小其實是不重要的。但是o1-mini 和 Llama3-8B 的輸出還是莫名的減去了那些小的獼猴桃。

大模型數學能力翻車實錘!Apple新研究暴露真相!-AI.x社區

這個無關信息的添加,導致了模型性能整體的顯著下降,最多的達到了70%,但是o1-preview性能下降最少。

大模型數學能力翻車實錘!Apple新研究暴露真相!-AI.x社區

一般較小的模型更容易對基準數據過擬合,也就是模型會記住問題的解決方案,因此如果我們增加模型的大小,那么它對數據集的過擬合就會更難。

但是隨著模型規模的擴大,LLM 可能也能記憶住更多的東西,因為他們會訓練更多的數據,記住了更多的信息,從而顯得比實際聰明。

本文轉載自 ??NLP前沿??,作者:熱愛AI的

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久国产精品久久久久久久久久 | 91社区在线高清 | 成人免费日韩 | 在线日韩| 三级成人在线 | 午夜精品一区二区三区在线播放 | 色在线免费视频 | 999免费网站| 国产精品一区在线 | av网站在线看 | 国产视频1区2区 | 青青久久久 | 免费精品视频 | 日韩精品一区二区三区中文字幕 | 中文字幕亚洲欧美日韩在线不卡 | 欧美黄视频 | 青青草国产在线观看 | 午夜精品久久久久久久久久久久 | 99精品久久久久久中文字幕 | 亚洲一区二区中文字幕 | 成人一区二区在线 | 亚洲欧洲日本国产 | 99久久婷婷国产综合精品电影 | 国产在线观看网站 | 中国大陆高清aⅴ毛片 | 亚洲精品一区二区另类图片 | 久久久久久久久久久久一区二区 | 国产线视频精品免费观看视频 | 爱草在线| 日韩欧美一区二区在线播放 | 操久久| 天天成人综合网 | 久久久久久免费毛片精品 | 在线一区| 精品国产乱码久久久久久闺蜜 | 中文无吗| 男女下面一进一出网站 | 国产精品视频久久久 | 99精品国产一区二区三区 | 国产成人精品a视频一区www | 国产精品免费一区二区 |