除了ChatGPT,還有14個你不可不知的大模型
譯文許多老板將人工智能視為未來,許多技術領導者將ChatGPT視為人工智能的代名詞。但ChatGPT并非唯一的大型語言模型,對于某些軟件項目或領域而言,它甚至可能不是最佳選擇。新的競爭對手幾乎每天都在涌現,看起來每一個都想成為下一代人工智能工具。
某些模型是否比其他模型更好?或許是的。但所有這些模型都有缺陷或弱點,在使用過程中會逐漸發現這些弱點。生成式人工智能乍看起來令人驚嘆,但隨著時間推移,它難以預測的一面會開始顯現出來。
語言模型基準測試
受模型的范圍和使用方式的影響,科學地衡量生成式人工智能的回答質量很困難。數據科學家可以輸入成千上萬甚至數百萬個測試問題并評估回答,但如果測試集只關注一種類型的問題,那評估結果的準確性也是受限的。也就是說,查閱類似Hugging Face的Open LLM Leaderboard這樣的資源是有趣的,但未必準確。
盡管找到一種精確的方式來評估LLM(大型語言模型)的難度很大,但至少在它們之間進行切換現在并不困難了。像OpenLLM或FastChat等項目使得在不同的API和接口之間連接各種模型變得更簡單。您可以將這些模型拼接在一起,有時甚至可以并行運行這些模型。
不能忽視的重要問題是成本。雖然每個研發團隊都享受著關注和投資的激增,但構建一個大型語言模型可能需要幾個月甚至幾年的時間。團隊首先組合訓練數據,然后通過高耗能硬件進行數據處理。最后,他們生成模型。如何將這項工作變現并持續發展是一個不斷演變的問題。
一些組織正在嘗試將結果開源化,而其他人則愉快地依賴于具有自己計費模型的服務。開源LLM可以是一份真正的禮物,但前提是您能夠處理部署模型和保持其運行所需的工作。
以下是14個非ChatGPT的大型語言模型示例。它們可能適合您的項目,也可能不適合。了解真相的唯一方法就是向它們發送提示并仔細評估結果。
Llama
這是一個基礎的LLM,由Facebook(現在的Meta)創建,并將其作為其所宣稱的”對開放科學的承諾“的一部分而發布出來。任何人都可以下載Llama并將其作為創建更精細調整模型的基礎,用于特定應用程序(Alpaca和Vicuna都是基于Llama構建的)。該模型還提供四種不同規模的版本。較小的版本只有70億個參數,已經在意想不到的地方使用。甚至有一位開發者聲稱已經使用只有4GB RAM的Llama在Raspberry Pi上運行。
Alpaca
一些斯坦福大學的研究人員使用Meta的Llama 7B,并將其訓練成了一組與ChatGPT等指令遵循模型相似的提示。這個微調過程產生了Alpaca 7B,這個模型讓普通人也可以通過提問和給予指示來獲取Llama LLM中編碼的知識。據估計,這種輕量級LLM可以在不到600美元的硬件上運行。
Alpaca 7B的創建者正在分發訓練集和構建它的代碼,任何人都可以復制該模型或基于不同數據集創建新模型。
Vicuna
Llama的另一個”后裔“是來自LMSYS.org的Vicuna。Vicuna團隊收集了來自ShareGPT的70,000個不同對話的訓練集,并特別關注創建多輪交互和指令遵循能力。Vicuna提供Vicuna-13b或Vicuna-7b兩個版本,它是基本交互式聊天中價格競爭最激烈的開放解決方案之一。
NodePad
并非所有人都對LLMs生成的“語言準確”的文本感到著迷。NodePad的創建者認為,文本質量往往會分散用戶注意力,使其無法仔細檢查底層事實。具有良好用戶界面的LLMs“往往無意中會美化結果,使用戶更難以判斷這些問題。”NodePad旨在培養探索和構思的能力,而不是產生用戶只會草率瀏覽的完美寫作樣本。這個LLM生成的結果呈現為節點和連接,就像許多“思維導圖工具”中所見,而不像成品寫作。用戶可以利用模型的百科全書知識來獲得偉大的創意,而不會陷入演示中迷失方向。
Orca
第一代大規模語言模型通過增加規模不斷取得成功。然而,微軟團隊的研究人員開發的Orca模型打破了這種趨勢。該模型僅使用了130億個參數,使其能夠在普通計算機上運行。Orca的開發者通過改進訓練算法來使用“解釋軌跡”、“逐步思考過程”和“指令”來實現這一壯舉。與其只要求AI從原始材料中學習不同,Orca被賦予了一個旨在進行教學的訓練集。換句話說,就像人類一樣,當AI不被投入到深水區時,它們學習得更快。初步結果很有希望,微軟團隊提供了基準測試數據,表明該模型的性能與規模更大的模型相當。
Jasper
Jasper的創建者不想構建一個無所不知的模型,他們想要一個專注于內容創作的模型。系統并非僅提供無限制的聊天會話,而是提供了50多個針對特定任務設計的模板,例如撰寫房地產列表或為亞馬遜等網站編寫產品特點。付費版本專門面向希望以一致語調創建營銷文案的企業。
Claude
Anthropic創建了Claude,旨在成為一個有用的助手,可以處理企業的許多基于文本的任務,包括研究和客戶服務等。輸入一個提示,輸出一個答案。Anthropic特意允許長提示,以鼓勵更復雜的指令,使用戶對結果擁有更多控制權。Anthropic目前提供兩個版本:名為Claude-v1的完整模型和更便宜、簡化的版本Claude Instant,后者價格顯著較低。前者適用于需要更復雜、結構化推理的工作,而后者在分類和審查等簡單任務中速度更快、效果更好。
Cerebras
當專用硬件和通用模型共同演化時,您可以獲得非常快速和高效的解決方案。Cerebras在Hugging Face上提供其LLM的各種規模,從小型(1.11億個參數)到大型(130億個參數),供那些想要在本地運行它的用戶選擇。然而,許多人可能希望使用云服務,這些云服務在Cerebras自己的芯片級集成處理器上運行,該處理器經過優化,可以高效處理大規模訓練集。
Falcon
United Arab Emirates的科技創新研究院(Technology Innovation Institute,簡稱TII)開發了全尺寸的Falcon-40b和較小的Falcon-7b模型。他們使用來自RefinedWeb的大量通用實例對Falcon模型進行訓練,重點改善了推理能力。然后,他們選擇以Apache 2.0許可證發布該模型,使其成為最開放的可供實驗無限制使用的模型之一。
ImageBind
許多人認為Meta是一家主導社交媒體的大公司,但它也是開源軟件開發領域的強大力量。現在人們對人工智能的興趣正在蓬勃發展,所以公司開始分享自己的許多創新并不令人意外。ImageBind是一個旨在展示人工智能如何同時創建多種不同類型數據的項目,包括文本、音頻和視頻。換句話說,生成式人工智能可以將整個想象世界拼接在一起,只要你允許它這樣做。
Gorilla
你可能已經聽說過使用生成式人工智能來編寫代碼的方法。結果在表面上看起來令人印象深刻,但仔細檢查后會發現存在深層次的缺陷。語法可能是正確的,但API調用都是錯誤的,甚至可能指向不存在的函數。Gorilla是一個旨在更好地處理編程接口的LLM。它的創建者從Llama開始,然后針對直接從文檔中獲取的更深入的編程細節進行了微調。Gorilla團隊還提供了自己基于API的一系列測試指標以測試成功率。這對于尋求依靠AI進行編碼輔助的程序員來說是一個重要的補充。
Ora.ai
Ora是一個允許用戶創建針對特定任務進行優化的定制聊天機器人。LibrarianGPT將嘗試使用書中的直接段落回答任何問題。例如,卡爾·薩根教授是一個機器人,可以引用薩根的所有著作,使他可以生活在數十億年的時間里。您可以創建自己的機器人,也可以使用其他人已經創建的數百個機器人之一。
AgentGPT
AgentGPT是另一個將應用程序所需的所有代碼拼接在一起的工具。它旨在創建可以處理諸如規劃度假或編寫某種類型游戲代碼等工作的代理。技術堆棧的許多源代碼都可在GPL 3.0下獲得。還提供了作為服務運行的版本。
FrugalGPT
FrugalGPT并不是一種不同的模型,而是一種尋找回答特定問題最便宜的模型的策略。開發FrugalGPT的研究人員認識到,許多問題并不需要最大、最昂貴的模型。他們的算法從最簡單的模型開始,并按照級聯的方式逐步選擇更復雜的語言模型,直到找到一個合適的答案。
FrugalGPT旨在通過為每個具體問題選擇最合適的模型來優化資源使用,從而在不降低準確性和效果的情況下降低成本。研究人員的實驗證明,這種謹慎的方法可能節省高達98%的成本,因為許多問題實際上并不需要復雜的模型。
作者 | GENERATIVE AI INSIGHTS
原文鏈接 | https://www.infoworld.com/article/3700869/14-llms-that-arent-chatgpt.html