成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

還能這么玩?清華給 ChatGPT 做逆向,發現了 ChatGPT 的進化軌跡!

人工智能
這篇論文從 ChatGPT 時間變化性這個角度切入去深入的了解了 ChatGPT 所關注的特征,并且也關注到了 ChatGPT 特征的動態變化,這為許多基于 ChatGPT 的探索性研究鋪了一條方便的道路,也或多或少規避了一些因為 ChatGPT 的進化而不應該得出的錯誤結論。

夕小瑤科技說 原創
作者 |小戲、Python

立足一個 ChatGPT,現在對大模型的研究簡直是百花齊發百家爭鳴,用 ChatGPT 做化學實驗、給 ChatGPT 做心理測試、誘導 ChatGPT 越獄泄漏隱私、讓幾個 ChatGPT 形成一個小社會等等不勝枚舉。

圖片

而最近,清華的研究團隊又在大模型研究中另辟蹊徑,不僅構建了一個數據集記錄 ChatGPT 隨時間的“版本迭代”,更是通過逆向分析探索得到了 OpenAI 對 ChatGPT 動的手腳做的改進,推演出了 ChatGPT 的進化軌跡!論文和項目地址如下:

論文題目:

ChatLog: Recording and Analyzing ChatGPT Across Time

論文鏈接:

https://arxiv.org/pdf/2304.14106.pdf

項目鏈接:

https://github.com/THU-KEG/ChatLog

首先讓我們來看一張圖,其實毋庸置疑,OpenAI 在 ChatGPT 如此龐大的用戶基數下,必然會借助這些海量的“優質數據”讓 ChatGPT 不斷的迭代進化。以 ELI5 數據集(包含很多 Explain Like I am 5 問題的數據集)為例,在 3 月 9 號的 ChatGPT 版本中,ChatGPT 只給出了一個相當簡陋的回答,很顯然 ChatGPT 在 3 月 9 號還沒有完全理解什么是“Explain Like I am 5”,但是在 4 月 9 號時,ChatGPT 已經完成了進化,不僅表達更加生動,甚至還使用了比喻的修辭。

圖片

顯然,一個直覺的問題是“ChatGPT 是沿著什么方向變化的?”,如果可以搞清楚這個問題,不僅是可以滿足一下我們的好奇心,更是給 ChatGPT 客觀的評估工作帶來了方便。但這個問題并不是 OpenAI 會寫在文檔里供我們即插即用的問題,因而,這篇工作應運而生,總的來說,論文完成了兩件事,一是分別構建了一個按日還按月記錄 ChatGPT 變化的數據集;二則是利用這個數據集對 ChatGPT 的進化軌跡進行了分析,得出了不少有意思的結論。

ChatLog——ChatGPT 進化數據集

關于數據集,作者團隊從兩個角度出來,一個是構建一個以月份為時間維度的數據集,一個是構建一個以日期為時間維度的數據集。對于按月記錄的數據集而言,作者團隊從數據集 HC3(一個包含大約兩萬四千條問題及其對應的人類專家答案和 ChatGPT 答案的數據集) 、Jack of All Trades (一個用于評估 ChatGPT 在25個公共 NLP 數據集上的 25 個不同 NLP 任務性能的數據集)以及一系列其他數據集中抽取了涵蓋計算機、數學、金融等不同領域的共 38730 個問題-答案對,每月詢問一次 ChatGPT,構成 ChatLog-Monthly。

圖片

而為了監測 ChatGPT 每天的變化,論文從 HC3 數據集中隨機抽取了1000個問題,從 2023 年 3 月 5 日到 4 月 9 日重復發送給ChatGPT。其中有些問題是開放性的,可能需要 ChatGPT 借助外部知識,而有部分問題是分析性的,主要考驗 ChatGPT 的分析能力??傮w大約 30% 是“What”類型的問題,30% 是“How”類型的問題,58% 是為“Why”類型的問題,其他類型的問題占 6%。通過在這些問題上 ChatGPT 的表現,可以評估它在多方面的表現,如多領域知識理解、推理、解釋等。

分析——ChatGPT 的進化軌跡

有了數據集,選取相應評價指標,便可以看出 ChatGPT 隨時間的進化軌跡。如下表所示,對比 1 月份的 ChatGPT 在不同任務數據集上的結果,可以看出 New ChatGPT 有了幾乎全線的提升。

圖片

總結來看,對比 1 月,ChatGPT 主要完成了以下的升級:

  1. 在攻擊性與垃圾文本分類任務中,New ChatGPT 有了顯著的提升,幾乎接近現有模型的 SOTA,這表明 ChatGPT 在識別攻擊性與垃圾文本的能力方面有了巨大的提升,這種提升很有可能是開放用戶的攻擊帶來的;
  2. 對于需要數學推理的任務,ChatGPT 有了顯著的改進,在 MathQA 數據集上的準確率從 71.40% 提高到了 78.00%。

關注推理能力,從下面的圖中可以看出,3 月 5 號的 ChatGPT 使用了錯誤的推理得出來了錯誤的答案,但是在 4 月份,ChatGPT 的推理能力便完成了升級,已經可以正確的理解問題并加以推導并得到正確的答案。顯然,在 ChatGPT 這種進化速度下,如果沒有固定 ChatGPT 的時間版本,那么非常有可能因為忽略 ChatGPT 升級這一關鍵因素而得出錯誤的評估結果。

圖片

值得注意的是,在一些依賴先驗知識的任務中,ChatGPT 的性能發生了下降,如在 WNLI 數據集上,ChatGPT的準確率從 1 月份的 81.69% 下降到 71.83%。換言之,大量語料的涌入對 ChatGPT 而言有可能并不全然是一件好事,與人類的互動也會增加 ChatGPT 的機器幻覺。

而對 ChatLog-Daily 而言,這種變化可以被更加細致的可視化如下(后綴 p,r,f 分別表示精確度,召回率和 F1 分數):

圖片

可以看到,ChatGPT 生成的答案正在變得更加簡潔,在追求精度與廣度的平衡,以獲得更高的可讀性。但是,單純分析這種準確率召回率,其實沒法真正透視 OpenAI 到底做了什么,這些指標也無法分析出為什么時隔一個月,ChatGPT 便學會用比喻來解釋問題了。因此,作者在這個基礎上更進一步做了全面的特征提取,具體而言,作者團隊將  個 query 在  天內持續丟給 ChatGPT,得到了  維的回復矩陣 ,再對  中每天的回復提取  個特征(情感特征、知識特征、語言特征),構成集合  。如下圖所示,作者利用對應不同的工具,提取出了知識、語言、情感等總計 265 個的豐富特征。

圖片

根據這些特征,作者探索了特征與對應得分之間的關系,可以看到,語義特征與召回率正相關與準確率負相關,結合前面 ChatLog-Daily 的分析結果,可以看出 OpenAI 在語義豐富度方面加強了 ChatGPT。

圖片

那么什么在快速迭代中,ChatGPT 的什么特征是穩定的呢?論文定義了一個特征穩定的評估指標——變異系數,公式如下:


其中, 為特征的索引。通過在 ChatLog-Daily 上進行測試,可以看到最穩定的指標是可讀性與語義清晰度 。也就是說,這幾個指標是 ChatGPT 做的最好的核心競爭力。

圖片

總結與討論

總的來說,這篇論文從 ChatGPT 時間變化性這個角度切入去深入的了解了 ChatGPT 所關注的特征,并且也關注到了 ChatGPT 特征的動態變化,這為許多基于 ChatGPT 的探索性研究鋪了一條方便的道路,也或多或少規避了一些因為 ChatGPT 的進化而不應該得出的錯誤結論。

責任編輯:武曉燕 來源: 夕小瑤科技說
相關推薦

2023-02-26 01:02:22

2023-10-23 09:25:08

模型AI

2023-03-06 13:52:00

ChatGPT數學

2023-12-18 13:12:00

AI模型

2022-10-31 08:47:21

人臉識別按鍵鍵盤

2024-05-20 08:25:55

2020-05-09 16:45:56

ping命令Linux

2024-03-25 08:03:32

技術面試ShowMeBug協同編程

2024-10-28 07:10:00

scroll標記前端網格布局

2020-08-27 19:30:39

Chrome瀏覽器

2025-06-03 09:08:49

2023-02-20 14:37:25

2024-01-24 18:55:56

ChatGPT聊天機器人

2022-12-17 19:57:17

ChatGPTAI模仿

2023-06-14 23:40:35

ChatGPTOpenAIGPT-4

2023-04-17 07:34:17

電商平臺ChatGPT表格

2023-04-13 13:25:40

ChatGPTGPT神經網絡

2023-02-16 22:34:20

微軟谷歌ChatGPT

2020-08-14 08:19:25

Shell命令行數據

2017-03-07 09:49:18

存儲
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人福利片 | 欧美国产视频 | 国产又色又爽又黄又免费 | 亚洲黄色国产 | 久久成人久久 | 成人在线视频免费观看 | 欧美一区二区三区国产精品 | 日韩av一区在线观看 | 在线伊人网 | av激情在线 | 午夜免费影视 | 成人精品一区二区三区中文字幕 | 成人午夜免费视频 | 嫩草网 | 国产在线观 | 亚洲一区视频在线 | 欧美在线| 国产精品 欧美精品 | 亚洲欧美精品在线 | 91伊人网| 亚洲播放一区 | 久久久久久亚洲 | 99精品一区二区三区 | 成人av一区二区三区 | 蜜桃精品视频在线 | 免费观看毛片 | 国产高清视频在线 | 亚洲网站在线观看 | 亚洲36d大奶网 | 天天色影视综合 | 亚洲成人精品 | 久久伊人青青草 | 国产在线视频一区 | 日操操夜操操 | 国产成人免费视频 | 午夜免费影视 | 黄网站在线观看 | 欧美精品一区三区 | 麻豆va | 丝袜美腿一区二区三区 | 国产成人精品一区二 |