微軟首次推出27億參數的Phi-2模型,性能超過許多大型語言模型
微軟發布了一款名為Phi-2的人工智能模型,該模型表現出了不凡的能力,其性能可媲美甚至超越規模是其25倍的、更大、更成熟的模型。
微軟在近日的一篇博文中宣布,Phi-2是一個擁有27億參數的語言模型,與其他基礎模型相比,它在復雜的基準測試中表現出了 "先進的性能",這些測試評估了推理、語言理解、數學、編碼和常識能力。Phi-2現在通過微軟Azure人工智能工作室的模型目錄發布,這意味著研究人員和開發人員現在就可以將其集成到第三方應用程序中。
Phi-2由微軟首席執行官Satya Nadella(如圖)于11月在Ignite大會上首次發布,其強大的功能得益于該公司所稱的“教科書質量”數據(專門針對知識),以及學習其他模型傳遞的洞見的技術。
Phi-2 的有趣之處在于,傳統上,大型語言模型的能力總是與其總體規模密切相關,而總體規模是以參數來衡量的。參數越大的模型通常能力越強,但 Phi-2 的出現改變了這種狀況。
微軟表示,Phi-2在某些基準測試中顯示出與更大型的基礎模型相匹敵甚至超越它們的能力,包括Mistral AI 70億參數的Mistral、Meta Platforms公司130億參數的Llama 2,甚至在某些基準測試中超過了700億參數的Llama-2。
最令人驚訝的說法可能是,它的性能甚至超過了谷歌的 Gemini Nano,后者是上周發布的 Gemini系列LLM中效率最高的一款。Gemini Nano 專為設備上的任務而設計,可以在智能手機上運行,實現文本摘要、高級校對、語法修正以及上下文智能回復等功能。
微軟的研究人員說,Phi-2涉及的測試非常廣泛,包括語言理解、推理、數學、編碼挑戰等。
該公司表示,Phi-2之所以能取得如此優異的成績,是因為它是用精心挑選的教科書級數據訓練而成,這些數據旨在教授推理、知識和常識,這意味著它可以從更少的信息中學到更多的東西。微軟的研究人員還使用了一些技術,允許從更小的模型中獲取知識。
研究人員表示,值得注意的是,Phi-2可以不使用基于人類反饋的強化學習或者教學性微調等技術就實現強勁的性能,這些技術通常用于改善人工智能模型行為。盡管沒有使用這些技術,但是與其他使用了這些技術的開源模型相比,Phi-2在減少偏見和有毒內容方面依然表現卓越。該公司認為這是量身定制的數據整理的功勞。
Phi-2是微軟研究人員所稱的“小型語言模型(SLM)”系列的最新版本。該系列第一個模型是 Phi-1,于今年早些時候首次發布,擁有13億參數,針對基本的Python編碼任務進行了微調。今年9月,該公司又推出了擁有13億參數的Phi-1.5,使用新的數據源進行訓練,其中包括用自然語言編程生成的各種合成文本。
微軟表示,Phi-2的高效性使其成為研究人員探索增強人工智能安全性、可解釋性和語言模型道德發展等領域的理想平臺。