Llama4我的理解
我覺得LLaMA4最值得看的技術就是iRoPE,他們自己沒出說說明,所以我試著解讀了一下:
簡單來說,iRoPE 技術是對標準 RoPE 位置編碼方式的升級,主要解決了在處理超長文本時出現的問題。
交錯式應用 (Interleaved Application):
標準 RoPE 在模型的每一層Q和K都用旋轉操作來編碼PI頁就是位置編碼。
iRoPE 的做法是“交替進行”——有些層用帶 RoPE 的注意力機制,有些層不用(或者用其他方法)。
這樣做的目的是為了防止在處理很長的文本時,位置信息因為連續旋轉而變得混亂或丟失,從而讓模型更好地理解長距離的關聯。
動態尺度調整 (Dynamic Scale Adjustment):
標準 RoPE 使用固定的頻率參數θ。
當處理的文本長度超過模型訓練時設定的最大長度時,這些頻率參數可能會超出模型能有效處理的范圍,影響效果。
iRoPE 可能(我猜的)會使用動態調整尺度或改進頻率計算的方法,確保旋轉角度在處理超長文本時仍然在合理的范圍內。
通過上面2個改進,iRoPE 能夠處理非常長的文本(比如 10M token),而標準 RoPE 根本打不上去,現在市面上最狠的夜就是Gemini的2M了,我覺得llama4就這么一個值得說的,對了還有一個就是因為搞多模態了,所以pretrain的數據一下翻番了,30T,這對賣卡的是個好消息。
本文轉載自??熵減AI??,作者:周博洋
已于2025-6-10 06:45:32修改
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦