微軟發(fā)布Phi-3.5小語言模型，欲推動AI創(chuàng)新進一步發(fā)展

2024-08-28 06:34:27

微軟最新發(fā)布的Phi-3.5系列AI模型，標志著小語言模型領(lǐng)域迎來又一波重大進展。

微軟最新發(fā)布的Phi-3.5系列AI模型，標志著小語言模型領(lǐng)域迎來又一波重大進展。該家族由三款模型構(gòu)成：Phi-3.5-mini-instruct、Phi-3.5-Mixture of Experts-instruct以及Phi-3.5-vision-instruct，各個模型均提供特定功能，旨在提高AI技術(shù)在不同任務(wù)下的性能表現(xiàn)。此版本彰顯出微軟致力于推動AI技術(shù)發(fā)展，同時維持良好效率與可及性的探索與嘗試。

Phi-3.5模型家族概述

Phi-3.5-mini-instruct模型包含38億參數(shù)，針對快速推理任務(wù)進行了優(yōu)化。該模型在代碼生成以及邏輯/數(shù)學問題的解決等領(lǐng)域表現(xiàn)相當出色。盡管與其他模型比較其規(guī)模相對較小，但卻在各種性能基準測試當中擁有可與Meta Llama 3.1以及Mistral 7B等大模型相媲美的性能。微軟致力于使其成為一套既強大、又高效的模型，這也代表著軟件巨頭致力于打造一款能夠在資源受限環(huán)境下部署的高質(zhì)量AI工具。

家族中的第二位成員Phi-3.5-Moe-instruct是三套模型中體量最大的一位，擁有420億參數(shù)。不過得益于其混合專家架構(gòu)，在任何給定操作期間，只有66億參數(shù)處于活動狀態(tài)。這樣的設(shè)計使該模型能夠高效處理跨多種語言的復雜AI任務(wù)。MoE方法使得模型能夠僅激活與給定任務(wù)關(guān)聯(lián)度最高的“專家”子模型，從而提高性能與資源利用率。該模型在需要多語言能力的任務(wù)當中特別有效，甚至優(yōu)于谷歌Gemini 1.5 Flash等由競爭對手打造的更大模型。

第三套模型Phi-3.5-vision-instruct則將該家族的功能擴展到了多模態(tài)領(lǐng)域。此模型擁有42億參數(shù)，能夠處理文本和圖像，適合光學字符識別、圖表分析乃至視頻摘要等任務(wù)。該模型在處理復雜視覺任務(wù)時表現(xiàn)出的能力，與業(yè)界體量更大的多模態(tài)模型幾乎不相上下。

更多Phi-3.5高級功能

Phi-3.5家族最令人印象深刻的功能之一，就是所有模型都可支持高達12.8萬token的長上下文窗口。此功能允許模型處理和生成大量數(shù)據(jù)，因此適合用于處理長文檔、復雜對話乃至涉及多媒體內(nèi)容的實際應(yīng)用。在這么長的輸入序列中保持一致性以及對上下文的感知能力，已經(jīng)成為眾多現(xiàn)代AI應(yīng)用程序的一項關(guān)鍵需求。

訓練這些模型當然離不開龐大的算力資源。例如，Phi-3.5-mini-instruct模型就以10天為周期使用到512張H100 GPU在3.4萬億個token上進行了訓練。Phi-3.5-MoE模型的訓練范圍更廣，在23天之內(nèi)在4.9萬億個token上進行了訓練，且同樣使用512張H100 GPU。最后，Phi-3.5-vision-instruct模型在6天之內(nèi)在5000億token上進行了訓練，且使用到256張A100 GPU。這種立足高質(zhì)量、推理密集型公開數(shù)據(jù)集進行了密集訓練，也讓Phi-3.5模型家族擁有了令人印象深刻的功能表現(xiàn)。

開源與可及性

為了履行公司的開源承諾，微軟已經(jīng)根據(jù)開源MIT許可證對外發(fā)布Phi-3.5模型家族。開發(fā)人員可以通過Hugging Face平臺訪問這些模型，將其下載、修改并集成到自己的項目當中，且不受商業(yè)使用的限制。這種開源方法有望激發(fā)出更廣泛的采用和實驗，特別是在那些需要高級AI功能的加持、但卻不具備從頭開始訓練模型的必要資源的應(yīng)用領(lǐng)域。

競爭格局與影響

微軟為Phi-3.5家族定下的戰(zhàn)略就是開發(fā)出更小、更高效的AI模型，盡可能使其在特定任務(wù)中帶來超越更大模型的表現(xiàn)。這種對效率的關(guān)注帶來了幾大關(guān)鍵優(yōu)勢，包括減少算力要求、加快推理時間以及因能耗降低而實現(xiàn)的環(huán)境友好能力。這些優(yōu)勢的存在，使得Phi-3.5模型家族特別適合部署在資源相對有限的邊緣計算場景以及大規(guī)模云環(huán)境當中。

此次發(fā)布中最值得注意的方面之一，則在于微軟宣稱這些模型在特定任務(wù)當中可以用過谷歌、Meta甚至是OpenAI等競爭對手發(fā)布的更大體量模型。如果這些說法在后續(xù)實際應(yīng)用當中得到驗證，那么很可能預(yù)示著AI格局將發(fā)生轉(zhuǎn)變，即模型效率將變得與原始規(guī)模及參數(shù)數(shù)量同等重要。這種方法挑戰(zhàn)了以往AI開發(fā)領(lǐng)域“越大越好”的固有觀點，有望引領(lǐng)AI開發(fā)進入一個專注于可持續(xù)性和可及性的新時代。

Phi-3.5家族代表著微軟在AI研發(fā)方面邁出的重要一步。通過專注于打造體量更小、效率更高、能夠處理各種任務(wù)的模型，微軟希望就當前市場對于功能強大且資源高效的AI解決方案的旺盛需求交出一份令人滿意的答卷。

責任編輯：龐桂玉來源：至頂網(wǎng)

微軟 Phi-3.5 語言模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟發(fā)布Phi-3.5小語言模型，欲推動AI創(chuàng)新進一步發(fā)展

Phi-3.5模型家族概述

開源與可及性

競爭格局與影響