成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT現狀終于有人講清楚了!OpenAI大牛最新演講爆火,還得是馬斯克欽點的天才

人工智能
預訓練(pre-training)、監督微調(supervised fine tuning)、獎勵建模(reward modeling)和強化學習(reinforcement learning)。

繼Windows Copilot發布后,微軟Build大會熱度又被一場演講引爆。

前特斯拉AI總監Andrej Karpathy在演講中認為思維樹(tree of thoughts)與AlphaGo的蒙特卡洛樹搜索(MCTS)有異曲同工之妙!

網友高呼:這是關于如何使用大語言模型和GPT-4模型的最詳盡有趣的指南!

圖片

此外Karpathy透露,由于訓練和數據的擴展,LLAMA 65B“明顯比GPT-3 175B更強大”,并介紹了大模型匿名競技場ChatBot Arena:

Claude得分介于ChatGPT 3.5和ChatGPT 4之間。

圖片

網友表示,Karpathy的演講一向很棒,而這次的內容也一如既往沒有令大家失望。

隨著演講而爆火的,還有推特網友根據演講整理的一份筆記,足足有31條,目前轉贊量已超過3000+:

圖片

所以,這段備受關注的演講,具體提到了哪些內容呢?

如何訓練GPT助手?

Karpathy這次的演講主要分為兩個部分。

第一部分,他講了如何訓練一個“GPT助手”。

Karpathy主要講述了AI助手的四個訓練階段:
預訓練(pre-training)、監督微調(supervised fine tuning)、獎勵建模(reward modeling)和強化學習(reinforcement learning)。

每一個階段都需要一個數據集。

圖片

在預訓練階段,需要動用大量的計算資源,收集大量的數據集。在大量無監督的數據集上訓練出一個基礎模型。

Karpathy用了更多例子作補充:

圖片

接下來進入微調階段。

使用較小的有監督數據集,通過監督學習對這個基礎模型進行微調,就能創建一個能夠回答問題的助手模型

圖片

他還展示了一些模型的進化過程,相信很多人之前已經看過上面這張“進化樹”的圖了。


Karpathy認為目前最好的開源模型是Meta的LLaMA系列(因為OpenAI沒有開源任何關于GPT-4的內容)。

在這里需要明確指出的是,基礎模型不是助手模型

雖然基礎模型可以回答問題,但它所給出的回答并不可靠,可用于回答問題的是助手模型。在基礎模型上進行訓練的助手模型,通過監督微調,在生成回復和理解文本結構方面的表現將優于基礎模型。

在訓練語言模型時,強化學習是另一個關鍵的過程。

通過用人工標記的高質量的數據進行訓練,可以使用獎勵建模來創建一個損失函數,以改善其性能。然后,通過增加正向的標記,并降低負面標記的概率,來進行強化訓練。

而在具有創造性的任務中,利用人類的判斷力對于改進AI模型至關重要,加入人類的反饋可以更有效地訓練模型。

經過人類反饋的強化學習后,就可以得到一個RLHF模型了。

模型訓練好了,接下來就是如何有效利用這些模型解決問題了。

如何更好地使用模型?

第二部分,Karpathy主要討論了提示策略、微調、快速發展的工具生態系統以及未來的擴展等問題。

Karpathy又給出了具體示例來說明:

圖片

當我們在寫文章時候,我們會進行很多的心理活動,需要考慮自己的表述是否正確。而對于GPT來說,這只是一個序列標記(a sequence of tokens)。

提示(prompt)可以彌補這種認知差異。

Karpathy進一步解釋了思維鏈提示的工作方式。

對于推理問題,要想讓自然語言處理中Transformer的表現更好,需要讓它一步一步地處理信息,而不能直接拋給它一個非常復雜的問題。

如果你給它幾個例子,它會模仿這個例子的模版,最終生成的結果會更好。

圖片

模型只能按照它的序列來回答問題,如果它生成的內容是錯誤的,你可以進行提示,讓它重新生成。

如果你不要求它檢查,它自己是不會檢查的。

圖片

這就涉及到了System1和System2的問題。

諾貝爾經濟學獎得主丹尼爾卡尼曼在《思考快與慢》中提出,人的認知系統包含System1和System2兩個子系統。System1主要靠直覺,而System2是邏輯分析系統。

通俗來說,System1是一個快速自動生成的過程,而System2是經過深思熟慮的部分。

這在最近一篇挺火的論文“Tree of thought”(思維樹)中也有被提及。

圖片

深思熟慮指的是,不是簡單的給出問題的答案,而更像是與Python膠水代碼一起使用的prompt,將許多prompt串聯在一起。模型必須要維護多個提示,還必須要執行一些樹搜索算法,來找出要擴展的提示。

Karpathy認為這種思路與AlphaGo非常相似:

AlphaGo在下圍棋時,需要考慮下一枚棋子下在哪里。最初它是靠模仿人類來學習的。

但除此之外,它還進行了蒙特卡洛樹搜索,可以得到具有多種可能性的策略。它可以對多種可能的下法進行評估,僅保留那些較好的策略。我認為這在某種程度上相當于AlphaGo。

對此,Karpathy還提到了AutoGPT:

我認為目前它的效果還不是很好,我不建議大家進行實際應用。我只是認為,隨著時間的推移,我們或許可以從它的發展思路中汲取靈感。

圖片

其次,還有一個小妙招是檢索增強生成(retrieval agumented generation)和有效提示。

窗口上下文的內容就是transformers在運行時的記憶(working memory),如果你可以將與任務相關的信息加入到上下文中,那么它的表現就會非常好,因為它可以立即訪問這些信息。

簡而言之,就是可以為相關數據建立索引讓模型可以高效訪問。

圖片

如果Transformers也有可參考的主要文件,它的表現會更好。

最后,Karpathy簡單講了一下在大語言模型中的約束提示(Constraint prompting)和微調。
可以通過約束提示和微調來改進大語言模型。約束提示在大語言模型的輸出中強制執行模板,而微調則調整模型的權重以提高性能。

我建議在低風險的應用中使用大語言模型,始終將它們與人工監督相結合,將它們看作是靈感和建議的來源,考慮copilots而不是讓它們完全自主代理。

關于Andrej Karpathy

圖片

Andrej Karpathy博士畢業后的第一份工作,是在OpenAI研究計算機視覺。

后來OpenAI聯合創始人之一的馬斯克看上了Karpathy,把人挖到了特斯拉。但也因為這件事,馬斯克和OpenAI徹底鬧翻,最后還被踢出局。在特斯拉,Karpathy是Autopilot、FSD等項目的負責人。

今年二月份,在離開特斯拉7個月后,Karpathy再次加入了OpenAI。

最近他發推特表示,目前對開源大語言模型生態系統的發展饒有興趣,有點像早期寒武紀爆發的跡象。

圖片

傳送門:
[1]https://www.youtube.com/watch?v=xO73EUwSegU(演講視頻)

[2]https://arxiv.org/pdf/2305.10601.pdf(“Tree of thought”論文)

參考鏈接:
[1]https://twitter.com/altryne/status/1661236778458832896

[2]https://www.reddit.com/r/MachineLearning/comments/13qrtek/n_state_of_gpt_by_andrej_karpathy_in_msbuild_2023/
[3]https://www.wisdominanutshell.academy/state-of-gpt/

責任編輯:武曉燕 來源: 量子位
相關推薦

2020-07-29 09:21:34

Docker集群部署隔離環境

2021-07-05 22:22:24

協議MQTT

2019-07-07 08:18:10

MySQL索引數據庫

2024-04-01 10:09:23

AutowiredSpring容器

2021-04-10 10:37:04

OSITCP互聯網

2020-12-24 15:18:27

大數據數據分析

2024-02-23 08:08:21

2023-08-14 11:35:16

流程式轉化率數據指標

2022-01-05 09:27:24

讀擴散寫擴散feed

2020-10-16 17:20:21

索引MySQL數據庫

2021-01-29 10:50:04

數據中臺數據數據管理

2019-05-22 08:43:45

指令集RISC-V開源

2023-07-22 13:47:57

開源項目

2020-04-23 10:21:57

Linux 網絡編程 數據

2024-08-06 16:03:18

馬斯克OpenAI人工智能

2024-05-07 13:30:00

數據訓練

2024-02-27 14:27:16

2025-02-18 09:21:21

2025-02-11 11:46:48

OpenAI奧特曼馬斯克

2023-11-06 10:41:46

ChatGPT馬斯克
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人综合一区 | 草草网 | 午夜免费在线电影 | 午夜欧美一区二区三区在线播放 | 日韩中文一区二区三区 | 国产乱码精品一区二区三区五月婷 | 中文字幕第5页 | 日本三级电影在线免费观看 | 色婷婷av99xx | 亚洲中午字幕 | 看av网 | 色综合久| 日韩高清一区 | 午夜精品在线观看 | 天堂精品 | 不卡视频一区二区三区 | 狠狠爱免费视频 | 国产69精品久久99不卡免费版 | 天天亚洲| 特黄一级 | 精品国产乱码久久久久久牛牛 | 亚洲一区二区三区在线播放 | 亚洲精品66| 国产九一精品 | 国产一区二| 精品国产乱码久久久久久牛牛 | 中文一区二区 | 一区二区三区高清 | 天久久 | 91九色麻豆 | 福利视频网址 | 91麻豆精品国产91久久久久久 | 福利一区二区在线 | 欧美视频第二页 | 中文字幕免费 | 国产毛片毛片 | 日韩精品一区二区三区中文在线 | www.亚洲国产精品 | 婷婷色国产偷v国产偷v小说 | 国产精品久久 | 亚洲欧美日韩国产综合 |