成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

當(dāng)ChatGPT參加中國高考,把全國A卷B卷喂給它后,竟嚴(yán)重偏科!

人工智能
ChatGPT在訓(xùn)練過程中可能沒有使用中國高考題數(shù)據(jù),因此其表現(xiàn)不受數(shù)據(jù)泄露的影響,具有較高的可信度。

夕小瑤科技說 原創(chuàng)
作者 | PythonChatGPT作為一個智能人機對話應(yīng)用,在推出后迅速風(fēng)靡全球。僅僅一個月的時間,其用戶數(shù)量已經(jīng)突破了一億大關(guān)。人們也用ChatGPT測試了很多考試項目,例如SAT、AP、GRE等。然而,如果讓ChatGPT來參加我們中國的高考,會是怎樣的一番光景呢?他會不會偏科呢?我們這些普通人又能否考得過ChatGPT呢?且看復(fù)旦大學(xué)和華東師大的同學(xué)們給大家?guī)淼脑u測。

論文題目:
Evaluating the Performance of Large Language Models on GAOKAO Benchmark
論文鏈接:https://arxiv.org/pdf/2305.12474.pdf

如何讓ChatGPT解答高考題?

該論文采用零監(jiān)督prompt的方式,將試題轉(zhuǎn)化為ChatGPT的輸入,如下圖所示。對于不同的學(xué)科和題型,設(shè)計了不同的詢問方式。對于數(shù)學(xué)題,則將公式轉(zhuǎn)化為latex輸入。

圖片

高考數(shù)據(jù)集

本文測試采用2010~2022年,一共13年間的全國A卷和全國B卷,每套試卷包含10門學(xué)科,即語數(shù)英物化生史地政,其中數(shù)學(xué)分為理科數(shù)學(xué)與文科數(shù)學(xué)。

數(shù)據(jù)集一共包含2811道試題。具體題型這里就不展開,相信讀者們對高考題還是十分了解的。

圖片

在評估時,聘請上海市曹楊第二中學(xué)的高中老師批閱主觀題。

實驗與分析

歷年高考,ChatGPT取得的分?jǐn)?shù)如下圖所示。由于在計算分?jǐn)?shù)時,將每科都?xì)w一化到100分,所以這個成績無法和你我的高考成績直接比較。但也可以看出,這個分?jǐn)?shù)并不理想,估計無論是復(fù)旦還是華東師大都是考不上的。這是為什么呢?

圖片

圖片

上圖展示了ChatGPT在各個學(xué)科、以及主客觀題上的表現(xiàn)。藍(lán)色為客觀題,黃色為主觀題。分析發(fā)現(xiàn),ChatGPT對客觀題的成績較好,尤其是英語閱讀理解、單選、完形填空,分別取得了88.3%,78.1%,73.8%的準(zhǔn)確率。但即使是客觀題,理科數(shù)學(xué)的準(zhǔn)確率還不到40%。數(shù)學(xué)是真的難呀~

主觀題上,ChatGPT的表現(xiàn)較差,物理、化學(xué)、生物和數(shù)學(xué)科目中,主觀題的表現(xiàn)明顯不如客觀題。結(jié)合理科客觀題分?jǐn)?shù)也較差,或許ChatGPT偏向文科?根據(jù)閱卷人的評語,ChatGPT主要欠缺在:1.數(shù)學(xué)問題中的復(fù)雜方程難以正確解決,在解題過程中使用了錯誤的公式。2.閱讀較長材料時理解和概括能力不足。

總結(jié)

ChatGPT在訓(xùn)練過程中可能沒有使用中國高考題數(shù)據(jù),因此其表現(xiàn)不受數(shù)據(jù)泄露的影響,具有較高的可信度。

觀察結(jié)果顯示,與國外考試相比,ChatGPT在中國高考題方面的表現(xiàn)稍遜一籌。因此,國內(nèi)的學(xué)生暫時無需過分擔(dān)心無法考過ChatGPT。然而,文章中提到的長文本概括能力等在GPT4-32K中有顯著改進(jìn),國產(chǎn)大模型也在中文數(shù)據(jù)上做了進(jìn)一步的優(yōu)化。因此,我們可以期待未來大模型高考題上取得更矚目的表現(xiàn)。

此外,用ChatGPT解高考題這個思路,或許可以回答網(wǎng)友們對哪個省的考題更難的爭論?

責(zé)任編輯:武曉燕 來源: 夕小瑤科技說
相關(guān)推薦

2018-06-13 13:46:21

2021-06-28 09:35:45

AI 高考人工智能

2019-07-08 09:00:58

人工智能機器學(xué)習(xí)技術(shù)

2023-03-20 07:12:54

GPT學(xué)習(xí)React

2025-06-08 12:23:06

2025-02-08 08:50:00

2020-10-25 17:48:54

LVM系統(tǒng)運維

2025-06-06 01:25:00

AI古文字學(xué)模型

2023-02-16 08:03:06

2023-10-04 09:44:56

Btrfs子卷

2017-06-09 08:38:17

機器人挑戰(zhàn)高考

2019-06-10 05:32:01

編程程序員算法

2010-11-08 14:21:37

2010-04-23 18:11:28

Aix鏡像

2021-12-06 08:00:00

Kubernetes容器數(shù)據(jù)

2024-06-19 10:48:31

ChatGPTGPT項目

2017-06-09 15:22:47

互聯(lián)網(wǎng)

2023-08-21 10:36:23

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲一区中文字幕在线观看 | 毛片免费观看 | 小川阿佐美pgd-606在线 | 国产精品国产a | 中文字幕在线第一页 | 国产美女在线观看 | 久久久高清 | 91精品国产高清久久久久久久久 | 欧美成人一区二区 | 伊人网国产 | 国产精品久久久久久久久久免费 | 精品亚洲永久免费精品 | 精品国产乱码久久久久久蜜退臀 | 久久精品二区 | 亚洲一级黄色 | av中文字幕网站 | 人人看人人干 | 日韩国产欧美一区 | 中文字幕久久久 | 国产农村妇女毛片精品久久麻豆 | 二区三区视频 | 久久成人人人人精品欧 | 精品亚洲一区二区三区四区五区高 | 岛国一区 | 久久久精品久久久 | 一级看片免费视频 | 成人免费精品视频 | 国产偷自视频区视频 | 精品96久久久久久中文字幕无 | 91人人视频在线观看 | 日本成人午夜影院 | 国产精品久久久久久久久免费丝袜 | 手机三级电影 | 久久av网站 | 天天插天天舔 | 青草青草久热精品视频在线观看 | 密桃av | 六月婷婷久久 | 亚洲情视频 | 91精品久久久 | 天天草夜夜骑 |