成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

羊駝家族大模型集體進化!32k上下文追平GPT-4,田淵棟團隊出品

人工智能 算法
Meta AI這篇剛剛提交的論文表示,LLaMA上下文窗口從2k擴展到32k后只需要小于1000步的微調(diào)。

開源羊駝大模型LLaMA上下文追平GPT-4,只需要一個簡單改動!

Meta AI這篇剛剛提交的論文表示,LLaMA上下文窗口從2k擴展到32k后只需要小于1000步的微調(diào)。

與預(yù)訓(xùn)練相比,成本忽略不計。

圖片

擴展上下文窗口,就意味著AI的“工作記憶”容量增加,具體來說可以:

  • 支持更多輪對話,減少遺忘現(xiàn)象,如更穩(wěn)定的角色扮演
  • 輸入更多資料完成更復(fù)雜的任務(wù),如一次處理更長文檔或多篇文檔

更重要的意義在于,所有基于LLaMA的羊駝大模型家族豈不是可以低成本采用此方法,集體進化?

羊駝是目前綜合能力最強的開源基礎(chǔ)模型,已經(jīng)衍生出不少完全開源可商用大模型和垂直行業(yè)模型。

圖片

論文通信作者田淵棟也激動地在朋友圈分享這一新進展。

圖片

基于RoPE的大模型都能用

新方法名為位置插值(Position Interpolation),對使用RoPE(旋轉(zhuǎn)位置編碼)的大模型都適用。

RoPE早在2021年就由追一科技團隊提出,到現(xiàn)在已成為大模型最常見的位置編碼方法之一。

圖片

但在此架構(gòu)下直接使用外推法(Extrapolation)擴展上下文窗口,會完全破壞自注意力機制。

具體來說,超出預(yù)訓(xùn)練上下文長度之外的部分,會使模型困惑度(perplexity)飆升至和未經(jīng)訓(xùn)練的模型相當(dāng)。

新方法改成線性地縮小位置索引,擴展前后位置索引和相對距離的范圍對齊。

圖片

用圖表現(xiàn)二者的區(qū)別更加直觀。

圖片

實驗結(jié)果顯示,新方法對從7B到65B的LLaMA大模型都有效。

在長序列語言建模(Long Sequence Language Modeling)、密鑰檢索(Passkey Retrieval)、長文檔摘要(Long Document Summarization)中性能都沒有明顯下降。

圖片

除了實驗之外,論文附錄中也給出了對新方法的詳細證明。

圖片

Three More Thing

上下文窗口曾經(jīng)是開源大模型與商業(yè)大模型之間一個重要差距。

比如OpenAI的GPT-3.5最高支持16k,GPT-4支持32k,AnthropicAI的Claude更是高達100k。

與此同時許多開源大模型如LLaMA和Falcon還停留在2k。

現(xiàn)在,Meta AI的新成果直接把這一差距抹平了。

擴展上下文窗口也是近期大模型研究的焦點之一,除了位置插值方法之外,還有很多嘗試引起業(yè)界關(guān)注。

1、開發(fā)者kaiokendev在一篇技術(shù)博客中探索了一種將LLaMa上下文窗口擴展到8k的方法。

圖片

2、數(shù)據(jù)安全公司Soveren機器學(xué)習(xí)負責(zé)人Galina Alperovich在一篇文章中總結(jié)了擴展上下文窗口的6個技巧。

圖片

3、來自Mila、IBM等機構(gòu)的團隊還在一篇論文中嘗試了在Transformer中完全去掉位置編碼的方法。

圖片

有需要的小伙伴可以點擊下方鏈接查看~

Meta論文:https://arxiv.org/abs/2306.15595

Extending Context is Hard…but not Impossiblehttps://kaiokendev.github.io/context

The Secret Sauce behind 100K context window in LLMshttps://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

無位置編碼論文https://arxiv.org/abs/2305.19466

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-08-24 15:57:41

模型文檔檢索

2023-06-30 09:49:23

模型Meta

2023-03-17 08:28:17

GPT-4AI

2023-05-19 10:16:27

AIGPT-4

2023-08-29 12:45:32

2024-01-08 12:47:02

代碼模型Mistral

2024-03-25 00:05:00

開源模型AI

2024-02-26 00:20:00

AI模型

2023-05-14 14:15:00

GPT-4AI

2023-11-17 18:06:15

2024-12-19 09:48:07

2023-12-07 06:51:18

AI模型

2025-06-18 16:42:38

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2024-04-12 17:41:28

GPT-4TurboClaude

2024-03-14 08:11:45

模型RoPELlama

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-05-07 14:02:28

開源MoE指標(biāo)

2024-06-03 14:24:00

2023-12-11 13:20:00

數(shù)據(jù)訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 羞羞视频网站免费看 | 青青久草| 国产精品婷婷 | 日韩精品区| 亚洲欧美激情精品一区二区 | 成人精品在线视频 | 黄视频免费 | 国产精品久久久久久久三级 | 欧美日韩精品久久久免费观看 | 91视频网| 夜夜爽99久久国产综合精品女不卡 | 视频一区中文字幕 | 欧美一区免费 | 欧美日韩在线观看一区 | 日韩一区二区久久 | 国产二区视频 | 欧美精品成人 | 亚洲综合色婷婷 | 在线91| 亚洲精品黄色 | 91看片免费| 亚洲精品二区 | 一级毛片免费完整视频 | 免费一区二区三区在线视频 | 成年网站在线观看 | 亚洲婷婷六月天 | 国产高清一区二区 | 亚洲一区中文字幕在线观看 | 国产精品美女久久久免费 | 日韩三级 | 欧美美女二区 | 欧美一级二级三级 | 成人午夜激情 | 亚洲一区二区在线视频 | 午夜99 | 亚洲欧美日韩电影 | 在线观看黄色电影 | 不卡一二三区 | 国产成人精品一区二区三区四区 | 一区二区精品 | 天天色av |