成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Anthropic新研究:用統計思維評估大模型

人工智能 新聞
Anthropic提出了將嚴謹的統計思維引入大模型評估領域。

目前,評估大模型的方法就是比在基準測試中的數值,在于突出SOTA結果,并未充分考慮統計顯著性。例如,在對不同模型進行評估時,若僅依據表面的得分高低判斷優劣,而不考慮數據的不確定性和變異性,可能會得出不準確的結論。

所以,Anthropic提出了將嚴謹的統計思維引入大模型評估領域。通過構建全面的分析框架,能幫助研究人員量化評估結果的精確性,判斷模型之間的差異是否具有統計顯著性,而非僅僅依賴于表面的得分差異,進而為模型的選擇和改進提供更可靠的依據。

圖片

我們需要理解評估框架中的一個基本概念——超總體。在統計學中,總體是指研究對象的全體,而超總體則是一個更為宏觀的概念,它包含了所有可能的問題

在大模型評估的背景下,這意味著不僅僅關注評估中出現的具體問題,而是將這些問題視為從一個更大的、無限的、未觀察到的問題集合中隨機抽取的樣本。這種思維方式允許我們從更宏觀的角度來分析評估數據,從而更準確地估計模型的性能。

在評估框架的理論基礎中,每個問題得分被分解為均值部分和零均值隨機部分。如果一個評估由n個獨立抽取的問題組成,我們可以將第i個問題的得分表示為si,將其分解為均值部分xi和一個零均值隨機部分?i,即si=xi+?i。這里的xi被稱為條件均值,它代表了在給定問題i被選中的情況下的得分均值。

圖片

而?i的方差,記作σ2i=Var(?i),被稱為條件方差,它是在問題i被選中的情況下得分的方差。

在這個框架下,可以使用中心極限定理來估計均值的標準誤差。中心極限定理是一個強大的統計學工具,它指出,無論原始數據的分布如何,只要樣本量足夠大,樣本均值的分布將趨近于正態分布

因此,即使評估得分的分布未知,也可以利用中心極限定理來估計均值的標準誤差,可以估計為SEC.L.T.=√[Var(s)/n]=√[(1/n)Σ(i=1ton-1)(si-ˉs)2]/n,其中ˉs是觀察到的得分的平均值。

但評估中的問題并不總是獨立的。例如,在閱讀理解評估中,多個相關問題可能基于同一文本段落。這種情況下,問題的抽取是非獨立的,中心極限定理的一個關鍵假設被違反,因此直接應用上述公式將導致不一致的標準誤差。

為了解決這個問題,研究人員引入了聚類標準誤差的概念。聚類標準誤差是一種在社會科學中發展出來的技術,用于處理問題聚類中的依賴和相關結構。

圖片

在評估框架的理論基礎中,還有一個重要的概念是方差的降低。方差是衡量得分分布離散程度的統計量,降低方差可以提高估計的精度。方差可以分解為兩個部分:從超總體中選擇問題的方差和所選問題的得分的均值條件方差。這種分解是加性的,遵循全方差定律。

為了展示這種統計學評估方法,研究人員設計了一個假設性的實驗,比較了兩個虛構模型“Galleon”和“Dreadnought”在三個非虛構評估上的表現:MATH(數學推理評估)、HumanEval(Python編程評估)和MGSM(多語言小學數學評估)。

在MATH評估中,Galleon的平均得分為65.5%,標準誤差為0.7%;Dreadnought的平均得分為63.0%,標準誤差為0.7%。

通過計算95%的置信區間,我們可以得出Galleon的真實得分在64.1%到66.9%之間,而Dreadnought的真實得分在62.3%到63.7%之間。這表明Galleon在MATH評估上的表現顯著優于Dreadnought。

圖片

在HumanEval評估中,Dreadnought的平均得分為87.7%,標準誤差為2.1%;Galleon的平均得分為83.6%,標準誤差為2.1%。通過計算95%的置信區間,我們可以得出Dreadnought的真實得分在83.6%到91.8%之間,而Galleon的真實得分在79.5%到87.7%之間。這表明Dreadnought在HumanEval評估上的表現顯著優于Galleon。

在MGSM評估中,Dreadnought的平均得分為78.0%,標準誤差為1.7%;Galleon的平均得分為75.3%,標準誤差為1.7%。通過計算95%的置信區間,我們可以得出Dreadnought的真實得分在74.6%到81.4%之間,而Galleon的真實得分在71.9%到78.7%之間。這表明Dreadnought在MGSM評估上的表現也優于Galleon。

通過這些案例分析,我們可以看到,計算標準誤差和置信區間不僅能夠提供更豐富的信息,還能幫助研究者更準確地評估模型在不同任務上的表現。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2024-12-19 09:48:59

2023-11-05 15:09:35

模型AI

2024-12-25 20:01:13

2023-10-11 12:32:53

AI模型

2025-03-06 09:46:00

AI模型代碼

2024-11-21 13:53:09

微軟AI技術

2024-11-14 14:20:00

生成式AI數據

2024-09-24 12:39:52

2024-06-18 14:01:17

2025-04-07 07:45:00

AI模型神經網絡

2024-04-03 13:32:24

2025-06-10 09:04:00

2024-03-26 06:40:06

大語言模型人工智能AI

2023-10-28 13:32:57

谷歌模型

2024-02-26 08:25:00

模型訓練

2024-08-28 17:36:35

AI模型開發

2025-06-09 09:04:00

2022-04-06 15:00:03

模型人工智能研究

2025-04-30 16:48:07

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一二三 | 超碰在线人人干 | 成人不卡视频 | 中文一区二区视频 | 999免费视频 | 欧美精品v国产精品v日韩精品 | 美女视频一区二区三区 | 自拍偷拍第一页 | 欧美成人精品一区二区男人看 | 亚洲精品中文字幕 | 日韩视频在线免费观看 | 国产成人精品免费视频大全最热 | 国产精品国产三级国产aⅴ原创 | 国产日韩一区二区 | 中文字幕一区二区三区四区 | 91大神在线看 | 日韩三区在线 | 成人免费淫片aa视频免费 | 国产免费又色又爽又黄在线观看 | 在线欧美亚洲 | 亚洲一区二区三区国产 | 亚洲国产精品久久久久婷婷老年 | 精品久久久久一区二区国产 | 伊人网综合在线观看 | 91天堂网 | 国产精品国产a级 | 国产精品69久久久久水密桃 | 国产高清在线精品一区二区三区 | 日韩精品久久一区 | 欧美九九| xx视频在线观看 | 亚洲精品一区中文字幕乱码 | 久久精品中文 | 中文字幕精品一区 | 国产黄色一级电影 | 日本一二三区在线观看 | 免费久久99精品国产婷婷六月 | 成人福利网| 亚洲劲爆av| 国产精品久久久久久久久久免费看 | 久久久久国 |