成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

生成式模型不只會「模仿」!哈佛、UCSB等最新成果:性能可超越訓(xùn)練集專家水平

人工智能 新聞
生成式模型原本被設(shè)計來模仿人類的各種復(fù)雜行為,但人們普遍認為它們最多只能達到與其訓(xùn)練數(shù)據(jù)中的專家相當(dāng)?shù)乃健2贿^,最新的研究突破了這一限制,表明在特定領(lǐng)域,如國際象棋,通過采用低溫采樣技術(shù),這些模型能夠超越它們所學(xué)習(xí)的那些專家,展現(xiàn)出更高的能力。

生成式模型(GMs)的設(shè)計宗旨是模仿人類的各種行為,例如回答問題、創(chuàng)作藝術(shù)、唱歌等,人類在這些領(lǐng)域都展現(xiàn)出高超的技能。

然而,模型在訓(xùn)練過程中實際上只專注于一個核心目標(biāo),即最小化模型輸出的交叉熵損失,確保模型的輸出分布盡可能地接近人類標(biāo)注的分布。

換句話說,模型的能力上限可能已經(jīng)被定死了,最多只能達到人類專家在其專業(yè)領(lǐng)域的表現(xiàn)水平。

但最近來自哈佛大學(xué)、加州大學(xué)圣巴巴拉分校(UCSB)、普林斯頓大學(xué)的研究結(jié)果表明,模型在某些特定的領(lǐng)域可以實現(xiàn)「超越(transcend)訓(xùn)練數(shù)據(jù)中的專家水平」的性能,青出于藍而勝于藍。

圖片

論文鏈接:https://arxiv.org/pdf/2406.11741

研究人員選擇國際象棋作為研究目標(biāo)展現(xiàn)模型的超越性(transcendence),因為其規(guī)則和玩法是清晰且有限的。

然后使用Transformer模型基于公開的人類國際象棋對局數(shù)據(jù)集進行訓(xùn)練,使其能夠預(yù)測對局中的下一步走法。

為了探索模型是否能夠超越人類專家,研究人員特意選擇了一個沒那么強的數(shù)據(jù)集,其中包含的人類玩家等級(使用Glicko-2對棋手等級進行評分)都不超過某個特定的分數(shù)。

實驗結(jié)果顯示,模型不僅可以達到該分數(shù),甚至部分模型還能實現(xiàn)性能超越,表明模型在某些情況下能夠超越提供訓(xùn)練數(shù)據(jù)的人類專家。

該研究主要包括以下幾個方面:

1. 在生成模型中形式化了超越(transcendence)的概念;

2. 通過將去噪專家的情況與模型集成聯(lián)系起來,找到了解釋超越的一個關(guān)鍵原因;

3. 在特定技能水平的玩家數(shù)據(jù)集上訓(xùn)練國際象棋Transformer,并證實了模型在低溫設(shè)置下能夠超越其訓(xùn)練數(shù)據(jù)中專家的最高等級。

4. 通過降低采樣溫度,對獎勵變化的分布進行可視化,并發(fā)現(xiàn)性能的提升主要歸因于在相對較小的一部分狀態(tài)下的大幅改進。

5. 探索了數(shù)據(jù)集多樣性的必要性,以及在數(shù)據(jù)集不夠多樣化時模型無法實現(xiàn)超越的情況。

超越性的定義

研究人員首先描述了一個理論框架,用于構(gòu)建和評估能夠基于輸入數(shù)據(jù)預(yù)測輸出的機器學(xué)習(xí)模型:

1. 輸入空間X和輸出空間Y,其中X可以是任何長度,而Y是有限的。

2. 函數(shù)類F是所有將輸入X映射到Y(jié)上概率分布的函數(shù)的集合,其中每個函數(shù)f ∈ F定義了給定輸入x時輸出y的條件概率。

3. 存在一個輸入分布p,其對X中的所有輸入都有非零概率。

4. 數(shù)據(jù)由k位專家進行標(biāo)注,每位專家提供一個函數(shù)fi,定義了給定輸入x時輸出y的概率分布。所有專家的分布被混合起來形成了一個混合分布。

圖片

5、由專家標(biāo)注的過程生成的X和Y上的聯(lián)合概率分布D。

圖片

6、獎勵函數(shù)r,為每個輸入-輸出對分配一個獎勵值

7、選擇一個測試分布ptest,并定義了在ptest上的平均獎勵Rptest(f),即對所有可能輸出的獎勵的期望值。

圖片


8、模型的目標(biāo)是找到在聯(lián)合分布D上的交叉熵損失最小的函數(shù),其中交叉熵損失是衡量預(yù)測概率分布與真實概率分布差異的指標(biāo)。

圖片

9、優(yōu)化過程:學(xué)習(xí)者通過最小化交叉熵損失來選擇最優(yōu)的預(yù)測函數(shù),包括對F中的所有可能函數(shù)進行評估和選擇。

基于上述框架,超越性(transcendence)可以被定義為,在特定的函數(shù)設(shè)置和概率分布下,學(xué)習(xí)到的預(yù)測器在測試分布ptest上的平均獎勵超過了所有專家(fi)中的最高獎勵值。

圖片

但這里討論的是一個理想化的情況,學(xué)習(xí)器可以訪問無限的數(shù)據(jù),并且可以選擇任何函數(shù)來擬合數(shù)據(jù),不受架構(gòu)或優(yōu)化方法的限制。

不過,即使在這種理想化的條件下,如果沒有對數(shù)據(jù)分布進行適當(dāng)?shù)男薷模揭部赡苁菬o法實現(xiàn)的。

在介紹這個理論框架時,研究人員做出了一些簡化的假設(shè),比如所有專家使用相同的輸入分布,所有輸入在訓(xùn)練分布下都有非零概率,專家是隨機均勻選擇的等等。

超越的條件

低溫采樣對于實現(xiàn)超越(transcendence)是必要的

在生成模型中,采樣溫度是一個控制生成過程隨機性的參數(shù)。低溫采樣意味著模型在生成預(yù)測時更加確定,傾向于選擇概率最高的輸出,從而減少噪聲和隨機性,提高預(yù)測的準(zhǔn)確性。

定理一:無論選擇哪些專家函數(shù)和測試分布,總存在至少一個專家預(yù)測器,在測試分布上的獎勵大于等于學(xué)習(xí)到的預(yù)測器。

圖片

當(dāng)前的理論框架假設(shè)所有專家對于給定的輸入x被均勻采樣,即每個專家對輸入x的預(yù)測被賦予相同的重要性。

未來也可以考慮使用貝葉斯加權(quán),可以更有效地結(jié)合專家的意見,可能會提高預(yù)測器的性能。

使用低溫度采樣實現(xiàn)超越性

定理2:如果存在某個溫度值??在0到1之間,使得在這個溫度值下或更低的溫度下,通過溫度采樣得到的預(yù)測器的性能(即在測試分布上的獎勵)高于所有專家,那么argmax預(yù)測器的性能也會高于所有專家。

圖片

低溫采樣可以被看作是在專家之間進行「多數(shù)投票」的過程,如果專家們對于最佳動作有顯著的預(yù)測概率,那么通過多數(shù)投票得出的結(jié)果可能就會選擇最佳動作。

當(dāng)多個專家對最佳動作有共識時,這種共識可以通過多數(shù)投票被識別出來,從而提高整體的預(yù)測性能,體現(xiàn)了「群體的智慧」,即集體決策可能優(yōu)于個體決策的現(xiàn)象。

通過這種方式,模型不僅復(fù)制了專家的知識,而且通過集體智慧提高了性能,實現(xiàn)了超越專家的預(yù)測。

對單個專家降噪

定理3:如果數(shù)據(jù)是由單個帶噪聲的專家生成的,那么存在某個溫度??在 (0, 1) 范圍內(nèi),使得對于所有不超過??的??′,預(yù)測器能夠?qū)崿F(xiàn)超越。

在單一專家提供的數(shù)據(jù)中,即使存在噪聲,通過低溫采樣也能夠?qū)崿F(xiàn)超越。

多專家超越

定理4:如果測試分布??test不是集中在單一子集Xi上,即至少有兩個不同的子集滿足??test(????)>0和??test(????)>0,那么在低溫采樣下,通過??1,…,????生成的數(shù)據(jù)可以實現(xiàn)超越。

只要測試分布不是只關(guān)注一個專家擅長的子集,而是涵蓋了多個子集,那么通過低溫采樣,就可以實現(xiàn)超越。這是因為低溫采樣有助于集中概率質(zhì)量在更可能的預(yù)測上,從而提高整體性能。

實驗結(jié)果

研究的核心問題是探討「低溫采樣是否能夠在實踐中真正引發(fā)超越現(xiàn)象」。

為了回答這個問題,研究人員測試了定理2,通過評估不同溫度值下的多個ChessFormer模型,測試溫度值的范圍變化從0.001(接近確定性)到1.0(原始分布),再到1.5(高熵)。

在圖1中,作者明確證實了超越現(xiàn)象的存在。ChessFormer 1000和ChessFormer 1300模型在溫度τ等于0.001時能夠?qū)崿F(xiàn)大約1500的等級評分,展現(xiàn)出了超越現(xiàn)象。

通過調(diào)整采樣溫度,模型能夠在某些情況下超越它們在訓(xùn)練期間所見過的最高等級。

研究人員還提出了兩個問題來深入理解超越現(xiàn)象:獎勵函數(shù)如何隨低溫采樣而變化,以及超越是否依賴于數(shù)據(jù)集的多樣性。

圖片

在棋類游戲中,技術(shù)水平較低的玩家可能在關(guān)鍵時刻犯下重大錯誤。如果這些錯誤具有個體差異,通過多個專家的預(yù)測平均化可以產(chǎn)生去噪效果,從而提高最佳走法的概率。

低溫采樣可以將概率質(zhì)量轉(zhuǎn)移到特定游戲情境中的更好走法上,從而提高預(yù)期獎勵。

總之,實驗和可視化結(jié)果強調(diào)了通過低溫采樣實現(xiàn)超越現(xiàn)象的潛力,并提出了研究問題來探索這一現(xiàn)象背后的機制。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2014-04-23 17:58:32

碼農(nóng)碼農(nóng)思想

2025-02-14 09:30:00

視頻生成模型開源機器人

2023-06-06 07:03:02

2024-07-02 01:09:02

2023-08-04 17:01:30

代碼模型

2023-10-25 16:27:05

2025-01-08 09:00:00

訓(xùn)練數(shù)據(jù)研究

2024-04-18 09:02:11

數(shù)據(jù)流Mixtral混合模型

2019-09-10 13:48:12

NLP神經(jīng)網(wǎng)絡(luò)模型

2023-11-23 18:19:15

騰訊騰訊混元Angel

2023-04-18 23:33:46

分類模型辨別式模型生成式模型

2022-12-25 14:19:55

模型

2022-08-08 09:47:09

AI算法模型

2023-11-17 08:46:26

2020-08-31 14:55:48

代碼開發(fā)AI

2022-01-06 09:57:02

數(shù)據(jù)計算機神經(jīng)網(wǎng)絡(luò)

2024-07-22 07:10:00

小模型機器學(xué)習(xí)蘋果

2024-03-04 13:36:00

模型訓(xùn)練

2025-03-03 10:04:49

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 中文字幕日韩av | 久久久久av | 精品久久影院 | 中文字幕乱码一区二区三区 | 久久一区二区免费视频 | 自拍偷拍精品 | 国产免费一区二区 | 日日夜夜草| 夜夜爽99久久国产综合精品女不卡 | 成人精品国产免费网站 | 中文在线一区二区 | 伊人网国产 | 人妖av| 成人国产精品 | 精品国产99| 国产精品久久久久久久久久久免费看 | 国产成人精品av | 欧美精品久久久久久久久久 | 国产欧美一区二区精品久导航 | 日日夜夜精品免费视频 | 日韩久久久久 | 精品91av| 男女视频网站 | 黄色一级大片在线免费看产 | av黄色国产| 日韩a视频 | 午夜久久久 | 亚洲成人久久久 | 日韩在线精品视频 | 中文字幕亚洲精品在线观看 | 黄色片av | 欧美一区二区三区在线免费观看 | 亚洲一区二区三区欧美 | 99精品99| 欧美极品在线 | 久久网站免费视频 | 国产精品视频yy9299一区 | 午夜精品一区二区三区在线视频 | 国产精品色哟哟网站 | 亚洲视频一区在线播放 | 精品一区电影 |