成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!

發布于 2025-2-25 12:49
瀏覽
0收藏

言簡意賅,發現月之暗面開源MoE模型,總參數量15.29B,激活參數2.24B,使用Muon優化器,在5.7T Tokens的訓練數據下,拿到了很好的效果。

Github:https://github.com/MoonshotAI/Moonlight

HF:https://huggingface.co/moonshotai/Moonlight-16B-A3B

Paper:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

效果如下:

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!-AI.x社區

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!-AI.x社區

比較 Muon 和 Adam 的擴展定律實驗,發現Muon 的樣本效率比 Adam 高 2 倍。

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!-AI.x社區

Muon 優化器原理如下:

來了!Kimi開源Moonlight-16B-A3B的MoE模型!!-AI.x社區

同時,Moonlight-16B-A3B的模型架構與DeepSeek-V3一致。

HF快速使用:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "moonshotai/Moonlight-16B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

messages = [
    {"role": "system", "content": "You are a helpful assistant provided by Moonshot-AI."},
    {"role": "user", "content": "Is 123 a prime?"}
]
input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
generated_ids = model.generate(inputs=input_ids, max_new_tokens=500)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

本文轉載自??NLP工作站??,作者: 劉聰NLP 


已于2025-2-25 13:57:45修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩欧美精品在线播放 | 久久久久亚洲精品 | 99精品热视频| av看片| 亚洲一区二区三区观看 | 国产精品揄拍一区二区久久国内亚洲精 | 日韩视频中文字幕 | 午夜爽爽男女免费观看hd | 91精品国产综合久久福利软件 | 日韩欧美综合在线视频 | 久久精品中文字幕 | 成人精品在线 | 亚洲日韩中文字幕一区 | 国产精品一区二区三区四区 | 国产成人免费视频 | 久久亚洲一区二区 | 中文字幕av网址 | 91精品国产自产在线老师啪 | 在线一区二区三区 | 91精品国产色综合久久 | 欧美一区永久视频免费观看 | 国产成人叼嘿视频在线观看 | 午夜视频在线 | 91精品中文字幕一区二区三区 | 久久久精品黄色 | 国产日韩欧美精品 | 国产免费av在线 | 97精品一区二区 | 福利在线观看 | av在线播放不卡 | 久久久精品天堂 | 免费国产黄网站在线观看视频 | 国产在线不卡视频 | 日韩中出| 国产色片在线 | 日韩 欧美 综合 | 开操网 | 日韩福利在线 | 欧美淫片| 国产日韩欧美 | 成人二区 |