成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI科學(xué)家最新演講:GPT-4即將超越拐點(diǎn),1000倍性能必定涌現(xiàn)!

人工智能
GPT-4參數(shù)規(guī)模擴(kuò)大1000倍,如何實(shí)現(xiàn)?OpenAI科學(xué)家最新演講,從第一性原理出發(fā),探討了2023年大模型發(fā)展現(xiàn)狀。

「GPT-4即將超越拐點(diǎn),并且性能實(shí)現(xiàn)顯著跳躍」。

這是OpenAI科學(xué)家Hyung Won Chung在近來(lái)的演講中,對(duì)大模型參數(shù)規(guī)模擴(kuò)大能力飆升得出的論斷。

在他看來(lái),我們所有人需要改變觀點(diǎn)。LLM實(shí)則蘊(yùn)藏著巨大的潛力,只有參數(shù)量達(dá)到一定規(guī)模時(shí),能力就會(huì)浮現(xiàn)。

圖片圖片

Hyung Won Chung將這次演講題目定為「2023年的大型語(yǔ)言模型」,旨對(duì)LLM領(lǐng)域的發(fā)展做一個(gè)總結(jié)。

在這個(gè)領(lǐng)域中,真正重要的是什么?雖然「模型擴(kuò)展」無(wú)疑是突出的,但其深遠(yuǎn)的意義卻更為微妙和細(xì)膩。

圖片圖片

在近一個(gè)小時(shí)的演講中,Hyung Won Chung從三個(gè)方面分享了自己過(guò)去4年從業(yè)以來(lái)對(duì)「擴(kuò)展」的思考。

都有哪些亮點(diǎn)?

參數(shù)規(guī)模越大,LLM勢(shì)必「涌現(xiàn)」

Hyung Won Chung強(qiáng)調(diào)的核心點(diǎn)是,「持續(xù)學(xué)習(xí),更新認(rèn)知,采取以“規(guī)模”為先的視角非常重要」。

因?yàn)橹挥性谀P瓦_(dá)到一定規(guī)模時(shí),某些能力才會(huì)浮現(xiàn)。

多項(xiàng)研究表明,小模型無(wú)法解決一些任務(wù),有時(shí)候還得需要依靠隨機(jī)猜測(cè),但當(dāng)模型達(dá)到一定規(guī)模時(shí),就一下子解決了,甚至有時(shí)表現(xiàn)非常出色。

因此,人們將這種現(xiàn)象稱(chēng)之為「涌現(xiàn)」。

圖片圖片

即便當(dāng)前一代LLM還無(wú)法展現(xiàn)出某些能力,我們也不應(yīng)該輕言「它不行」。相反,我們應(yīng)該思考「它還沒(méi)行」。

一旦模型規(guī)模擴(kuò)大,許多結(jié)論都會(huì)發(fā)生改變。

這促使許多研究人員能夠以一個(gè)新的視角去看待這個(gè)問(wèn)題,即推理思路的根本性轉(zhuǎn)變,從「一些方法現(xiàn)在不起作用」,到「一些方法只是在當(dāng)前不起作用」。

也就是,最新方法可能不適用于當(dāng)前模型,但是3-5年后,可能變得有效。

圖片

有著新穎視角的AI新人,通??梢詭ё龀鲇杏绊懥ρ芯?。那是因?yàn)樗麄儾皇芤环N直覺(jué)和想法的束縛,即經(jīng)驗(yàn)豐富的人可能已經(jīng)嘗試過(guò)但發(fā)現(xiàn)不成功的方法。

Hyung Won Chung表示,自己平時(shí)在實(shí)驗(yàn)過(guò)程中,會(huì)記錄下失敗的過(guò)程。每當(dāng)有了新的模型,他就會(huì)再次運(yùn)行實(shí)驗(yàn),再來(lái)查驗(yàn)?zāi)男┦浅晒Φ?,哪些是失敗的,以此往?fù)。

這樣一來(lái),就可以不斷更新和糾正自我認(rèn)知和理解,適應(yīng)技術(shù)的日新月異。

目前,GPT-3和GPT-4之間的能力仍然存在顯著差距,嘗試去彌合與當(dāng)前模型的差距可能是無(wú)效的。

圖片圖片

那么,已經(jīng)有了規(guī)模的發(fā)展性觀點(diǎn)后,我們?cè)撊绾螖U(kuò)大參數(shù)規(guī)模?

第一性原理看Transformer

迄今為止,所有大模型背后的架構(gòu)都是基于Transformer搭建的。想必很多人已經(jīng)對(duì)下圖的樣子熟記于心。

圖片圖片

這里,Hyung Won Chung從第一性原理出發(fā)探討Transformer的核心思想,并強(qiáng)調(diào)了Transformer內(nèi)部架構(gòu)細(xì)節(jié)并非關(guān)注重點(diǎn)。

他注意到,許多LLM的研究者不熟悉擴(kuò)展的具體操作。因此,這部分內(nèi)容主要是為那些想要理解大型模型訓(xùn)練含義的技術(shù)人員準(zhǔn)備的。

從功能性角度來(lái)看,可以把Transformer看作帶有矩陣乘法一種簡(jiǎn)潔的序列到序列的映射,并可以進(jìn)行相應(yīng)數(shù)組轉(zhuǎn)換。

圖片圖片

所以,擴(kuò)大Transformer的規(guī)模就是,讓很多很多機(jī)器高效地進(jìn)行矩陣乘法。

圖片圖片

通過(guò)將注意力機(jī)制拆分為單獨(dú)的頭,利用多臺(tái)機(jī)器和芯片,并使用GSP MD方法進(jìn)行無(wú)需通信的并行化。

然后借助Jax的前端工具PJ將陣列軸映射到硬件,可以實(shí)現(xiàn)大型語(yǔ)言模型的并行化。

預(yù)訓(xùn)練模型的規(guī)模將跨越數(shù)量級(jí),縮放法則是用小規(guī)模模型開(kāi)發(fā)的。

圖片圖片

1萬(wàn)倍GPT-4,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)函數(shù)

再進(jìn)一步擴(kuò)展模型規(guī)模時(shí),設(shè)想是GPT-4的10000倍,應(yīng)該考慮什么?

對(duì)Hyung Won Chung來(lái)說(shuō),擴(kuò)展不只是用更多的機(jī)器做同樣的事情,更關(guān)鍵的是找到限制進(jìn)一步擴(kuò)展的「歸納偏差」(inductive bias)。

總之,擴(kuò)展并不能解決所有問(wèn)題,我們還需要在這大規(guī)模工程的工作中做更多研究,也就是在后訓(xùn)練中的工作。

你不能直接與預(yù)訓(xùn)練模型對(duì)話(huà),但它會(huì)在提示后繼續(xù)生成,而不是回答問(wèn)題。即使提示是惡意的,也會(huì)繼續(xù)生成。

模型后訓(xùn)練的階段的步驟包括,指令調(diào)優(yōu)——獎(jiǎng)勵(lì)模型訓(xùn)練——策略模型訓(xùn)練,這也就是我們常說(shuō)的RLHF。

圖片圖片

盡管RLHF有著一些弊端,比如獎(jiǎng)勵(lì)模型容易受到「獎(jiǎng)勵(lì)」的影響,還有開(kāi)放的研究問(wèn)題需要解決,但是我們還是要繼續(xù)研究RLHF。

因?yàn)椋畲笏迫环w納偏差太大;學(xué)習(xí)目標(biāo)函數(shù)(獎(jiǎng)勵(lì)模型)以釋放縮放中的歸納偏差,是一種不同的范式,有很大的改進(jìn)空間。

圖片圖片

另外,RLHF是一種有原則的算法 ,需要繼續(xù)研究,直到成功為止。

總之,在Hyung Won Chung認(rèn)為,最大似然估計(jì)目標(biāo)函數(shù),是實(shí)現(xiàn)GPT-4 10000倍規(guī)模的瓶頸。

使用富有表達(dá)力的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)函數(shù),將是下一個(gè)更加可擴(kuò)展的范式。隨著計(jì)算成本的指數(shù)級(jí)下降,可擴(kuò)展的方法終將勝出。

圖片圖片

「不管怎么說(shuō),從第一原理出發(fā)理解核心思想是唯一可擴(kuò)展的方法」。

參考資料:

https://twitter.com/xiaohuggg/status/1711714757802369456?s=20

https://twitter.com/dotey/status/1711504620025942243

https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496


責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2023-03-16 17:26:09

AI模型

2024-05-15 09:28:01

2023-03-29 14:58:04

GPT-4技術(shù)

2023-10-16 12:51:32

2023-03-21 15:17:34

AI性能

2025-05-30 07:40:56

2023-10-12 14:18:06

2012-12-06 15:36:55

CIO

2024-05-28 14:40:00

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2023-03-22 10:24:14

AI智能

2023-07-24 14:26:58

OpenAIGPT-4Karpathy

2023-09-04 10:05:01

GPT-4AI模型

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2022-11-03 14:13:24

騰訊科學(xué)家

2023-07-07 09:32:57

GPT-4OpenAI

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2024-09-09 09:40:00

OpenAIGPT-4

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-04-09 16:17:05

ChatGPT人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲精品自在在线观看 | 一片毛片 | 天天操夜夜操 | 超碰地址 | 特级黄一级播放 | 国产一区二区三区四区hd | 91精品国产色综合久久 | 97人澡人人添人人爽欧美 | 欧洲精品久久久久毛片完整版 | 中文字幕在线视频一区二区三区 | 婷婷激情综合 | 精品福利一区二区三区 | 国产色 | 暖暖成人免费视频 | 美国十次成人欧美色导视频 | 国产精品欧美一区二区 | 剑来高清在线观看 | 欧美日韩一区在线播放 | 成人午夜在线观看 | 另类在线 | 少妇一级淫片免费放播放 | 欧洲成人午夜免费大片 | 精品视频一区二区三区 | 日本不卡一区二区三区在线观看 | 色啪网 | 热久久性| 久久亚洲国产精品日日av夜夜 | 亚洲国产精品久久久久 | 精品国产黄a∨片高清在线 www.一级片 国产欧美日韩综合精品一区二区 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 久久国产美女视频 | 在线一区二区三区 | 亚洲精品久久 | 在线一区观看 | 久久久成人网 | 日韩在线国产精品 | 午夜免费精品视频 | 亚洲天堂成人在线视频 | 欧美日韩国产综合在线 | 成年人网站在线观看视频 | 久久999|