成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

參數(shù)少量提升,性能指數(shù)爆發(fā)!谷歌:大語言模型暗藏「神秘技能」

人工智能 新聞
谷歌的這項研究,很可能是我們邁向AGI的一大步。

由于可以做一些沒訓練過的事情,大型語言模型似乎具有某種魔力,也因此成為了媒體和研究員炒作和關(guān)注的焦點。

當擴展大型語言模型時,偶爾會出現(xiàn)一些較小模型沒有的新能力,這種類似于「創(chuàng)造力」的屬性被稱作「突現(xiàn)」能力,代表我們向通用人工智能邁進了一大步。

如今,來自谷歌、斯坦福、Deepmind和北卡羅來納大學的研究人員,正在探索大型語言模型中的「突現(xiàn)」能力。

圖片

解碼器提示的 DALL-E

神奇的「突現(xiàn)」能力

自然語言處理(NLP)已經(jīng)被基于大量文本數(shù)據(jù)訓練的語言模型徹底改變。擴大語言模型的規(guī)模通常會提高一系列下游NLP任務(wù)的性能和樣本效率。

在許多情況下,我們可以通過推斷較小模型的性能趨勢預測大型語言模型的性能。例如,規(guī)模對語言模型困惑的影響已被驗證跨越超過七個數(shù)量級。

然而,某些其他任務(wù)的性能卻并沒有以可預測的方式提高。

例如,GPT-3的論文表明,語言模型執(zhí)行多位數(shù)加法的能力對于從100M到13B參數(shù)的模型具有平坦的縮放曲線,近似隨機,但會在一個節(jié)點造成性能的飛升。

圖片

鑒于語言模型在NLP研究中的應(yīng)用越來越多,因此更好地理解這些可能意外出現(xiàn)的能力非常重要。

在近期發(fā)表在機器學習研究(TMLR)上的論文「大型語言模型的突現(xiàn)能力」中,研究人員展示了數(shù)十個擴展語言模型所產(chǎn)生的「突現(xiàn)」能力的例子。

這種「突現(xiàn)」能力的存在提出了一個問題,即額外的縮放是否能進一步擴大語言模型的能力范圍。

圖片

某些提示和微調(diào)方法只會在更大的模型中產(chǎn)生改進

「突現(xiàn)」提示任務(wù)

首先,我們討論在提示任務(wù)中可能出現(xiàn)的「突現(xiàn)」能力。

在此類任務(wù)中,預先訓練的語言模型會被提示執(zhí)行下一個單詞預測的任務(wù),并通過完成響應(yīng)來執(zhí)行任務(wù)。

如果沒有任何進一步的微調(diào),語言模型通常可以執(zhí)行訓練期間沒有看到的任務(wù)。

圖片

當任務(wù)在特定規(guī)模閾值下不可預測地從隨機性能飆升至高于隨機性能時,我們將其稱為「突現(xiàn)」任務(wù)。

下面我們展示了三個具有「突現(xiàn)」表現(xiàn)的提示任務(wù)示例:多步算術(shù)、參加大學水平的考試和識別單詞的預期含義。

在每種情況下,語言模型的表現(xiàn)都很差,對模型大小的依賴性很小,直到達到某個閾值——它們的性能驟升。

圖片

對于足夠規(guī)模的模型,這些任務(wù)的性能只會變得非隨機——例如,算術(shù)和多任務(wù)NLU任務(wù)的訓練每秒浮點運算次數(shù)(FLOP)超過10的22次方,上下文任務(wù)中單詞的訓練FLOP超過10的24次方。

「突現(xiàn)」提示策略

第二類「突現(xiàn)」能力包括增強語言模型能力的提示策略。

提示策略是用于提示的廣泛范式,可應(yīng)用于一系列不同的任務(wù)。當它們對小型模型失敗并且只能由足夠大的模型使用時,它們被認為是可「突現(xiàn)」的。

思維鏈提示是「突現(xiàn)」提示策略的一個典型示例,提示模型在給出最終答案之前生成一系列中間步驟。

思維鏈提示使語言模型能夠執(zhí)行需要復雜推理的任務(wù),例如多步數(shù)學單詞問題。

值得一提的是,模型無需經(jīng)過明確培訓即可獲得思維鏈推理的能力,下圖則顯示了一個思維鏈提示的示例。

圖片

思維鏈提示的實證結(jié)果如下所示。

圖片

對于較小的模型,應(yīng)用思維鏈提示并不會優(yōu)于標準提示,例如當應(yīng)用于GSM8K時,這是一個具有挑戰(zhàn)性的數(shù)學文字問題基準。

然而對于大型模型,思維鏈提示在GSM8K上達到了57%的解決率,在我們的測試中性能顯著提升。

研究「突現(xiàn)」能力的意義

那么研究「突現(xiàn)」能力,又究竟有什么意義呢?

識別大型語言模型中的「突現(xiàn)」能力,是理解此類現(xiàn)象及其對未來模型能力的潛在影響的第一步。

例如,由于「突現(xiàn)」小樣本提示能力和策略沒有在預訓練中明確編碼,研究人員可能不知道當前語言模型的小樣本提示能力的全部范圍。

此外,進一步擴展是否會潛在地賦予更大的模型「突現(xiàn)」能力,這個問題同樣十分重要。

  • 為什么會出現(xiàn)「突現(xiàn)」能力?
  • 當某些能力出現(xiàn)時,語言模型的新現(xiàn)實世界應(yīng)用會被解鎖嗎?
  • 由于計算資源昂貴,能否在不增加擴展性的情況下通過其他方法解鎖突現(xiàn)」能力(例如更好的模型架構(gòu)或訓練技術(shù))?

研究人員表示,這些問題尚且不得而知。

不過隨著NLP領(lǐng)域的不斷發(fā)展,分析和理解語言模型的行為,包括由縮放產(chǎn)生的「突現(xiàn)」能力,是十分重要的。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-03-27 13:34:00

模型訓練

2020-09-25 09:58:37

谷歌Android開發(fā)者

2025-06-18 11:16:50

大模型性能KV-Cache

2025-05-28 01:25:00

RAG人工智能語言模型

2024-12-17 14:39:16

2023-05-19 07:49:50

2022-12-13 14:53:46

算力谷歌

2014-06-17 15:33:47

監(jiān)控寶

2025-05-21 09:40:11

2010-06-28 14:11:23

基調(diào)網(wǎng)路中國網(wǎng)站性能行業(yè)參考數(shù)據(jù)

2009-02-25 08:45:19

Windows 7性能指數(shù)

2022-02-07 15:05:07

模型AI訓練

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2014-04-16 09:56:09

行業(yè)網(wǎng)站性能指數(shù)

2021-08-11 09:01:48

智能指針Box

2023-12-11 15:40:32

PyTorch代碼大模型

2009-11-20 09:15:14

谷歌Chrome OS十大要點

2023-10-26 19:18:44

模型訓練

2020-09-22 15:17:59

谷歌Android技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产一区在线看 | 欧美激情精品久久久久久变态 | 成人激情视频 | 午夜精品视频在线观看 | 日本a∨视频 | 免费久| 中文字幕欧美日韩一区 | 日本在线观看视频 | 中文字幕精品一区二区三区精品 | 亚洲第一在线 | 精品视频在线播放 | 国内久久精品 | 日韩精品一区二区久久 | 日韩精品久久久久 | 男人av网| 日韩视频在线免费观看 | 亚洲精品一区二区三区在线观看 | 日韩欧美成人一区二区三区 | 青青草这里只有精品 | 日日夜夜精品免费视频 | 日韩欧美在线观看 | 久久精品成人一区 | 国产成在线观看免费视频 | 国产1区2区3区| 另类 综合 日韩 欧美 亚洲 | 求毛片| 亚洲国产一区在线 | 亚洲日本欧美日韩高观看 | 91麻豆产精品久久久久久夏晴子 | 希岛爱理在线 | 国产精品亚洲一区二区三区在线 | 欧美精品导航 | 麻豆国产一区二区三区四区 | 视频一区在线 | 91久久久久久 | 国产精品日韩欧美一区二区三区 | 国产免费一区二区三区最新6 | 户外露出一区二区三区 | 中文字幕一区在线 | 国产精品久久久久9999鸭 | 亚洲一区二区免费 |