2024屬于小模型,99%的用例可用SLM解決,大模型遇瓶頸?
在人工智能“戰爭”中,科技巨頭們一直在競相構建更大的語言模型,一個令人驚訝的新趨勢正在出現:小就是新的大。
隨著大語言模型 (LLM) 的進展出現一些停滯跡象,研究人員和開發人員越來越多地將注意力轉向小語言模型 (SLM)。這些緊湊、高效且適應性強的人工智能模型正在挑戰“越大越好”的觀念,有望改變我們進行人工智能開發的方式。
LLM 是否開始趨于穩定?
Vellum 和 HuggingFace 最近發布的績效比較表明,LLM 之間的績效差距正在迅速縮小。這種趨勢在多項選擇題、推理和數學問題等特定任務中尤其明顯,其中頂級模型之間的性能差異很小。
LLM 排行榜。(來源:vellum)
例如,在選擇題中,Claude 3 Opus、GPT-4 和 Gemini Ultra 的得分都在 83% 以上,而在推理任務中,Claude 3 Opus、GPT-4 和 Gemini 1.5 Pro 的準確率都超過 92%。
有趣的是,甚至像 Mixtral 8x7B 和 Llama 2 – 70B 這樣的較小模型在某些領域(例如推理和多項選擇題)也顯示出了有希望的結果,它們在這些領域的表現優于一些較大的模型。這表明模型的大小可能不是性能的唯一決定因素,架構、訓練數據和微調技術等其他方面可能發揮重要作用。
Uber 人工智能前負責人、《重啟人工智能》(Rebooting AI)一書的作者加里?馬庫斯(Gary Marcus)表示:“如果你從經驗上看,最近發表的十幾篇文章都與 GPT-4處于同一領域。”這本書講述了如何構建值得信賴的人工智能。
“其中一些比 GPT-4 好一點,但沒有質的飛躍。我想每個人都會說 GPT-4 比 GPT-3.5 領先了一大步。一年多來沒有發生任何[量子躍遷]。”馬庫斯說。
隨著性能差距不斷縮小,越來越多的模型展現出有競爭力的結果,這就提出了 LLM 是否確實開始趨于穩定的問題。如果這種趨勢持續下去,它可能會對語言模型的未來開發和部署產生重大影響,可能會將重點從簡單地增加模型大小轉移到探索更高效和專業的架構。
LLM方法的缺點
LLM 雖然無可否認地強大,但也有明顯的缺點。首先,訓練LLM需要大量的數據,需要數十億甚至數萬億的參數。這使得訓練過程極其耗費資源,訓練和運行 LLM 所需的計算能力和能源消耗是驚人的。這導致成本高昂,使得較小的組織或個人很難參與核心的LLM開發。在去年 MIT 的一次活動上,OpenAI 首席執行官 Sam Altman 表示,訓練 GPT-4 的成本至少為 1 億美元。
與 LLM 合作所需的工具和技術的復雜性也為開發人員帶來了陡峭的學習曲線,進一步限制了可訪問性。對于開發人員來說,從培訓到構建和部署模型的周期時間很長,這會減慢開發和實驗的速度。
劍橋大學最近發表的一篇論文顯示,公司可以花費 90 天或更長時間來部署單個機器學習 (ML) 模型。
論文鏈接:https://doi.org/10.1145/3533378
LLM 的另一個重要問題是他們容易產生幻覺——產生看似合理但實際上并不真實的輸出。這源于 LLM 的訓練方式是根據訓練數據中的模式預測下一個最可能的單詞,而不是真正理解信息。因此,LLM 可以自信地提出虛假陳述、編造事實或以無意義的方式組合不相關的概念。檢測和減輕這些幻覺是開發可靠且值得信賴的語言模型的持續挑戰。
“如果你用它來解決高風險問題,你不想侮辱你的客戶,或者得到不良的醫療信息,或者用它來駕駛汽車并在那里冒險。這仍然是一個問題,”馬庫斯警告說。
LLM 的規模和黑盒性質也使它們難以解釋和調試,這對于建立對模型輸出的信任至關重要。訓練數據和算法中的偏差可能會導致不公平、不準確甚至有害的輸出。
正如谷歌 Gemini 所見,使 LLM “安全”和可靠的技術也會降低其有效性。此外,LLM 的集中性質引起了人們對權力和控制權集中在少數大型科技公司手中的擔憂。
輸入小語言模型 (SLM)
SLM 是 LLM 的更精簡版本,參數更少,設計更簡單。他們需要更少的數據和訓練時間——幾分鐘或幾個小時,而 LLM 需要幾天的時間。這使得 SLM 在現場或較小的設備上實施起來更加高效和直接。
SLM 的主要優勢之一是它們適合特定應用。由于它們的范圍更集中并且需要的數據更少,因此與大型通用模型相比,它們可以更輕松地針對特定領域或任務進行微調。這種定制使公司能夠創建能夠非常有效地滿足其特定需求的 SLM,例如情緒分析、命名實體識別或特定領域的問答。與使用更通用的模型相比,SLM 的專業性質可以提高這些目標應用程序的性能和效率。
與 LLM 相比,SLM 也不太容易在其特定領域內出現未被發現的幻覺。SLM 通常在特定于其預期領域或應用程序的更窄且更有針對性的數據集上進行訓練,這有助于模型學習與其任務最相關的模式、詞匯和信息。這種關注減少了產生不相關、意外或不一致輸出的可能性。憑借更少的參數和更精簡的架構,SLM 不太容易捕獲和放大訓練數據中的噪聲或錯誤。
人工智能初創公司 HuggingFace 的首席執行官 Clem Delangue 表示,高達 99% 的用例可以使用 SLM 來解決,并預測 2024 年將是 SLM 年。
HuggingFace 的平臺使開發人員能夠構建、訓練和部署機器學習模型,今年早些時候宣布與谷歌建立戰略合作伙伴關系。兩家公司隨后將 HuggingFace 集成到 Google 的 Vertex AI 中,使開發人員能夠通過 Google Vertex Model Garden 快速部署數千個模型。
谷歌 Gemma 有些愛
在最初將 LLM 方面的優勢讓給 OpenAI 后,谷歌正在積極尋求 SLM 機會。早在二月份,谷歌就推出了 Gemma,這是一系列新的小語言模型,旨在提高效率和用戶友好性。與其他 SLM 一樣,Gemma 模型可以在各種日常設備上運行,例如智能手機、平板電腦或筆記本電腦,無需特殊硬件或廣泛優化。
自 Gemma 發布以來,經過訓練的模型上個月在 HuggingFace 上的下載量已超過 400,000 次,并且已經出現了一些令人興奮的項目。
例如,Cerule 是一個強大的圖像和語言模型,它將 Gemma 2B 與 Google 的 SigLIP 相結合,并在海量圖像和文本數據集上進行了訓練。Cerule 利用高效的數據選擇技術,這表明它無需大量數據或計算即可實現高性能。這意味著 Cerule 可能非常適合新興的邊緣計算用例。
另一個例子是 CodeGemma,它是 Gemma 的專門版本,專注于編碼和數學推理。CodeGemma 提供了針對各種編碼相關活動量身定制的三種不同模型,使開發人員更容易使用和高效地使用高級編碼工具。
小語言模型的變革潛力
隨著人工智能社區不斷探索小語言模型的潛力,更快的開發周期、更高的效率以及根據特定需求定制模型的能力的優勢變得越來越明顯。SLM 準備通過提供經濟高效且有針對性的解決方案,實現人工智能訪問的民主化并推動跨行業創新。
SLM 在邊緣的部署為金融、娛樂、汽車系統、教育、電子商務和醫療保健等各個領域的實時、個性化和安全應用開辟了新的可能性。
通過在本地處理數據并減少對云基礎設施的依賴,使用 SLM 的邊緣計算可實現更快的響應時間、改善數據隱私并增強用戶體驗。這種去中心化的人工智能方法有可能改變企業和消費者與技術互動的方式,在現實世界中創造更加個性化和直觀的體驗。
由于 LLM 面臨與計算資源相關的挑戰并可能達到性能瓶頸,SLM 的興起有望使人工智能生態系統以驚人的速度發展。