成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟剛發(fā)布Mu模型:支持Windows智能體,小參數(shù)跑出10倍性能

人工智能 新聞
Mu僅有3.3億參數(shù),但其性能可以比肩微軟之前發(fā)布的小參數(shù)模型Phi-3.5-mini,體量卻比它小10倍左右,并且在離線NPU的筆記本設(shè)備上,可以跑出每秒超過100 tokens的響應(yīng),這在小參數(shù)模型領(lǐng)域非常罕見。

今天凌晨,微軟在官網(wǎng)發(fā)布了創(chuàng)新小參數(shù)模型Mu。

Mu僅有3.3億參數(shù),但其性能可以比肩微軟之前發(fā)布的小參數(shù)模型Phi-3.5-mini,體量卻比它小10倍左右,并且在離線NPU的筆記本設(shè)備上,可以跑出每秒超過100 tokens的響應(yīng),這在小參數(shù)模型領(lǐng)域非常罕見。

此外,Mu支持在Windows中設(shè)置智能體,可將自然語言指令實時轉(zhuǎn)化為系統(tǒng)操作,例如,只需對著電腦說一句 “把鼠標(biāo)指針調(diào)大一些,調(diào)整屏幕亮度”,智能體就能精準(zhǔn)定位到相關(guān)設(shè)置項一鍵完成調(diào)整。

圖片

Mu架構(gòu)簡單介紹

Mu借鑒了之前微軟發(fā)布的小參數(shù)模型Phi Silica,專為小型本地部署優(yōu)化,尤其是在配備NPU的Copilot+ PC上。

架構(gòu)方面,Mu使用了僅解碼器的Transformer,并在此基礎(chǔ)之上進(jìn)行了雙重層歸一化、旋轉(zhuǎn)位置嵌入和分組查詢注意力三大創(chuàng)新。

雙重層歸一化方法通過在Transformer架構(gòu)的每個子層前后分別實施LayerNorm操作,有效確保了激活值的分布具有良好的統(tǒng)計特性,從而顯著增強了訓(xùn)練過程的穩(wěn)定性。

不僅避免了深層網(wǎng)絡(luò)中常見的訓(xùn)練不穩(wěn)定問題,還通過減少數(shù)值不穩(wěn)定情況的發(fā)生,間接提高了訓(xùn)練效率,從總體上降低了訓(xùn)練時間和資源消耗。

在Transformer架構(gòu)中,位置嵌入是讓模型理解序列順序的關(guān)鍵部分。傳統(tǒng)的絕對位置嵌入方法是給每個固定位置分配獨立的向量,把絕對位置信息添加到詞向量中。

但這種方式有兩個根本問題:一是當(dāng)輸入序列長度超過訓(xùn)練時的長度,模型因為沒有對應(yīng)位置的預(yù)訓(xùn)練向量,就很難準(zhǔn)確理解超出部分的位置關(guān)系;

另外一個是絕對位置編碼只能反映 token 在序列里的絕對位置,沒辦法直接表示 token 之間的相對距離,在需要理解長距離關(guān)系,例如,分析長句語法、代碼函數(shù)調(diào)用順序的任務(wù)中,存在天然不足。

旋轉(zhuǎn)位置嵌入則通過引入復(fù)數(shù)域的旋轉(zhuǎn)操作,從本質(zhì)上改變了位置編碼的機(jī)制。其核心原理基于復(fù)數(shù)乘法的幾何特點,把每個位置的嵌入向量表示成復(fù)數(shù)形式,通過和旋轉(zhuǎn)矩陣相乘,讓向量在復(fù)平面上旋轉(zhuǎn)。

圖片

對于每個位置和維度,旋轉(zhuǎn)位置嵌入都定義了旋轉(zhuǎn)矩陣,當(dāng)輸入序列中的兩個 token 交互時,它們位置嵌入向量的旋轉(zhuǎn)角度差異,直接體現(xiàn)了兩者的相對距離。從數(shù)學(xué)角度看,旋轉(zhuǎn)位置嵌入 把位置編碼變成了動態(tài)可擴(kuò)展的函數(shù)映射,而不是靜態(tài)的向量存儲。這一特性讓模型具備了出色的長序列外推能力。

在推理時遇到超長序列,旋轉(zhuǎn)位置嵌入 可以根據(jù)已經(jīng)學(xué)習(xí)到的旋轉(zhuǎn)規(guī)則,動態(tài)生成超出訓(xùn)練長度部分的位置編碼,避免了傳統(tǒng)絕對位置編碼因為 沒見過的位置而導(dǎo)致性能大幅下降的問題。

Mu還使用了分組查詢注意力對多頭注意力機(jī)制進(jìn)行了大量優(yōu)化。在傳統(tǒng)的多頭注意力中,每個頭都擁有自己的Key、Query和Value矩陣,這導(dǎo)致了大量的參數(shù)和內(nèi)存消耗。

分組查詢注意力則通過在頭組之間共享鍵和值,顯著減少了注意力參數(shù)的數(shù)量和內(nèi)存占用。例如,如果有12個頭,可以分為3組,每組4個頭共享相同的鍵和值。

這種設(shè)計不僅減少了參數(shù)和內(nèi)存占用,降低了在NPU上的延遲和功耗,提高了模型的運行效率,還通過保持頭的多樣性,確保了每個頭可以獨立計算查詢,從而維持了與傳統(tǒng)多頭注意力機(jī)制相當(dāng)?shù)男阅堋?/span>

此外,Mu還使用了預(yù)熱穩(wěn)定衰減時間表和Muon優(yōu)化器等訓(xùn)練技術(shù)來進(jìn)一步優(yōu)化其性能。微軟使用了A100 GPU對Mu進(jìn)行了訓(xùn)練,遵循Phi模型開發(fā)中首創(chuàng)的技術(shù),首先在數(shù)百億個最高質(zhì)量的教育token上進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)語言的語法、語義和一些世界知識。

圖片

為了進(jìn)一步提高準(zhǔn)確性,還從Phi模型中進(jìn)行知識蒸餾。通過捕獲Phi模型的一些知識,Mu模型實現(xiàn)了顯著的參數(shù)效率。其參數(shù)只有Phi-3.5-mini的十分之一,性能卻和它差不多。

支持Windows智能體

為提升 Windows 系統(tǒng)的易用性,微軟一直著力攻克修改數(shù)百項系統(tǒng)設(shè)置的難題,目標(biāo)是在“設(shè)置”中打造一個理解自然語言并能無縫修改可撤銷相關(guān)設(shè)置的 AI 智能體。微軟計劃將該智能體集成到現(xiàn)有搜索框中,以實現(xiàn)流暢的用戶體驗,這要求對眾多可能的設(shè)置實現(xiàn)超低延遲響應(yīng)。

在測試了各種模型后,Phi LoRA 最初達(dá)到了精度目標(biāo),但規(guī)模過大,無法滿足延遲要求。Mu具有合適的特性,需要針對特定任務(wù)進(jìn)行調(diào)整才能在 Windows設(shè)置中實現(xiàn)最佳性能。

圖片

此場景下的基線 Mu 模型雖在性能和功耗方面表現(xiàn)出色,但在使用相同數(shù)據(jù)且未經(jīng)任何微調(diào)時,精準(zhǔn)度會下降50%。為縮小這一差距,微軟將訓(xùn)練規(guī)模擴(kuò)大到 360萬個樣本,提升了 1300 倍,并將處理的設(shè)置從約50項擴(kuò)展至數(shù)百項。

通過采用自動化標(biāo)注的合成方法、帶元數(shù)據(jù)的提示調(diào)優(yōu)、多樣化措辭、噪聲注入和智能采樣,用于設(shè)置智能體的Mu微調(diào)模型成功達(dá)成質(zhì)量目標(biāo)。Mu微調(diào)模型的響應(yīng)時間控制在 500 毫秒以內(nèi)。根據(jù)測試顯示,Mu模型打造的智能體,在Windows設(shè)置的理解、執(zhí)行操作方面比較出色。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2024-05-22 10:44:47

2023-12-03 08:49:38

微軟開源

2020-02-24 10:51:25

微軟開源Windows

2021-07-15 13:40:25

微軟Windows 10Windows 11

2015-08-11 14:08:55

win10物聯(lián)網(wǎng)

2016-03-21 11:51:08

微軟Windows 10

2015-08-18 10:56:08

Windows 10桌面

2025-05-27 01:55:00

TypeScript開發(fā)者項目

2015-03-18 11:39:58

人工智能微軟

2023-03-01 10:03:49

Windows 11微軟

2025-05-20 09:12:00

2023-08-07 06:00:22

微軟Windows

2022-05-13 09:31:09

微軟Windows 11Windows 10

2021-04-06 10:39:28

Windows10操作系統(tǒng)微軟

2021-06-11 07:31:10

Windows10操作系統(tǒng)微軟

2023-04-20 10:25:49

微軟Windows

2015-08-11 10:04:36

Windows 10物聯(lián)網(wǎng)

2020-11-04 08:16:30

Windows10

2022-10-14 17:30:59

Windows 11微軟

2021-03-21 19:00:21

微軟Windows 10Windows
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久中文一区二区 | 一本大道久久a久久精二百 国产成人免费在线 | 天天干狠狠 | 国产999精品久久久 日本视频一区二区三区 | 欧美激情综合色综合啪啪五月 | 福利视频二区 | 成人免费视频观看 | av黄色在线播放 | 日韩成人av在线 | 国产91在线 | 亚洲 | 午夜a√| 欧美一级二级三级视频 | 国产欧美日韩在线观看 | 精品国产区 | 日韩一二区 | 日本成人免费网站 | 羞羞色在线观看 | 精品一区二区三区入口 | 国产一区二区精品在线 | 日韩国产一区二区三区 | 九九热九九 | 91中文字幕 | 国户精品久久久久久久久久久不卡 | 91电影| 亚洲免费视频一区 | 国产精品18久久久久久久 | 日韩高清电影 | 九色综合网 | 成人免费视频网 | 99精品国自产在线 | 欧美精品一区在线观看 | 玖玖视频网 | 日日干夜夜操 | 午夜在线电影网 | 国产乡下妇女做爰 | 国产精品免费一区二区三区 | 亚洲一区精品在线 | 欧美精品久久 | 日本一区二区三区免费观看 | 欧美精品成人影院 | 在线超碰|