成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從零手搓MoE大模型,大神級教程來了

人工智能 新聞
Hugging Face上有一位機器學習大神,分享了如何從頭開始建立一套完整的MoE系統。

傳說中GPT-4的“致勝法寶”——MoE(混合專家)架構,自己也能手搓了!

Hugging Face上有一位機器學習大神,分享了如何從頭開始建立一套完整的MoE系統。

圖片

這個項目被作者叫做MakeMoE,詳細講述了從注意力構建到形成完整MoE模型的過程。

作者介紹,MakeMoE是受到OpenAI創始成員Andrej Karpathy的makemore啟發并以之為基礎編寫的。

makemore是一個針對自然語言處理和機器學習的教學項目,意在幫助學習者理解并實現一些基本模型。

同樣,MakeMoE也是在一步步的搭建過程中,幫助學習者更深刻地理解混合專家模型。

那么,這份“手搓攻略”具體都講了些什么呢?

從頭開始搭建MoE模型

和Karpathy的makemore相比,MakeMoE用稀疏的專家混合體代替了孤立的前饋神經網絡,同時加入了必要的門控邏輯。

同時,由于過程中需要用到ReLU激活函數,makemore中的默認初始化方式被替換成了Kaiming He方法。

想要創建一個MoE模型,首先要理解自注意力機制。

模型首先通過線性變換,將輸入序列變換成用查詢(Q)、鍵(K)和值(V)表示的參數。

這些參數隨后被用于計算注意力分數,這些分數決定了在生成每個token時,模型對序列中每個位置的關注程度。

為了確保模型在生成文本時的自回歸特性,即只能基于已經生成的token來預測下一個token,作者使用了多頭因果自注意力機制。

這種機制通過一個掩碼來實現將未處理的位置的注意力分數設置為負無窮大,這樣這些位置的權重就會變為零。

多頭因果則是讓模型并行地執行多個這樣的注意力計算,每個頭關注序列的不同部分。

圖片

完成自注意力機制的配置后,就可以創建專家模塊了,這里的“專家模塊”是一種多層感知器。

每個專家模塊包含一個線性層,它將嵌入向量映射到一個更大的維度,然后通過非線性激活函數(如ReLU),再通過另一個線性層將向量映射回原始的嵌入維度。

這樣的設計使得每個專家能夠專注于處理輸入序列的不同部分,并通過門控網絡來決定在生成每個token時應該激活哪些專家。

圖片

于是,接下來就要開始構建分配和管理專家的組件——門控網絡。

這里的門控網絡同樣是通過一個線性層實現,該層將自注意力層的輸出映射到專家模塊的數量。

這個線性層的輸出是一個分數向量,每個分數代表了對應專家模塊對于當前處理的token的重要性。

門控網絡會計算這個分數向量的top-k值并記錄其索引,然后從中選擇top-k個最大的分數,用來加權對應的專家模塊輸出。

圖片

為了在訓練過程中增加模型的探索性,作者還引入了噪聲,避免所有token都傾向于被相同的專家處理。

這種噪聲通常通過在分數向量上添加隨機的高斯噪聲實現。

圖片

獲得結果后,模型有選擇地將前k個值與相應token的前k個專家的輸出相乘,然后相加形成加權和,構成模型的輸出。

最后,將這些模塊在一起,就得到一個MoE模型了。

針對以上的整個過程,作者都提供了相應的代碼,可以到原文中具體了解。

另外,作者還制作了端到端的Jupyter筆記,可以在學習各模塊的同時直接運行。

感興趣的話,就趕快學起來吧!

原文地址:https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch
筆記版本(GitHub):https://github.com/AviSoori1x/makeMoE/tree/main

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-02-27 09:29:05

GPT模型

2024-04-09 15:22:24

2024-02-06 10:38:10

昆侖萬維大模型

2024-05-06 07:58:23

MoE模型系統

2024-02-06 20:39:21

2023-05-08 15:14:38

技術AI

2024-01-12 17:25:45

MoE模型開源人工智能

2025-03-11 09:42:00

2025-01-16 08:40:00

2024-05-13 08:20:00

GPU芯片

2024-09-13 11:08:06

2024-04-01 12:10:48

數據訓練

2023-04-10 15:37:18

AI代碼

2025-05-30 08:45:00

數據模型訓練

2024-05-07 08:04:09

代碼格式化工具

2025-01-24 14:19:21

2024-04-01 12:39:05

大模型人工智能AI

2023-11-10 12:57:00

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久www成人免费精品张筱雨 | 欧美一区二区激情三区 | 精品中文在线 | 羞羞视频免费观看入口 | 亚洲成年影院 | 欧美黑人一级爽快片淫片高清 | 欧美激情va永久在线播放 | 视频二区国产 | 午夜二区| 欧美在线观看一区二区 | 久久久精选 | 在线中文字幕日韩 | 久久99久久| 99这里只有精品视频 | 国产综合第一页 | 欧美成人精品一区 | aaa精品 | 久久久国产精品 | 亚洲欧美一区二区三区视频 | 日本精品久久久久久久 | 日韩在线免费看 | 91精品久久久久久久久中文字幕 | 欧美无乱码久久久免费午夜一区 | 久久久国产亚洲精品 | 2019天天操| 欧美高清视频 | 91精品国产一区二区三区动漫 | 国产999精品久久久久久 | av日韩一区 | 成人欧美一区二区三区黑人孕妇 | 麻豆视频在线看 | 新91视频网| 国内自拍偷拍 | 日韩欧美天堂 | 国产精品视频久久久久久 | 91久久电影 | 午夜影院在线观看视频 | 欧美日韩一区在线 | 日韩视频一区在线观看 | 日韩精品在线看 | 免费人成激情视频在线观看冫 |