開源閉源爭論不休,淺談大模型開源和閉源
寫在前面
前一陣子的開源和閉源之爭炒的比較火熱,之前一直想寫點什么,由于太懶就沒寫,但是最近開源模型真的太火爆了,前有Grok-1、Mistral-8x22、Llama3,后有Yi-1.5、Deepseek-V2、Qwen1.5-110B,開源模型現在真的卷到飛起。
今天簡單聊聊下面的幾點內容,歡迎大家拍磚,給出不同看法:
- 開源模型有哪些優勢
- 開源模型與閉源模型的差距會越大還是越小
- 開源模型哪家強
開源模型有哪些優勢
個人認為,開源大模型是讓大模型行業卷起來的根源。
在ChatGPT剛剛出來的時候,業內滿是焦慮;在Llama開源之后,業界滿是興奮,因為更多人看到了光。
開源的優勢主要是人多,可能有人會反駁說AI需要高精尖的人才,但老話不是常說三個臭皮匠頂個諸葛亮嘛。(很多大佬其實也是沒有什么資源,從頭預訓練的資源消耗真的太大了)
人一多,點子就多,就會衍生出很多大模型相關Trick,就像如何進行上下文擴展(NTK、YaRN、LongLora等)、如何小代價進行模型Merge得到更大更好的模型(SOLAR、Llama-Pro等)、如何更好更高效地進行人類偏好對齊(DPO、ORPO等)等等等。如果沒有好的開源模型,很多研究也許就沒法涌現出來。
更多人涌入到大模型相關研究中,總會給大模型的發展帶來積極的作用。閉源大模型團隊的人也可以從外界汲取一些方法,來進一步提升模型本身效果。
隨著微調項目的開源、部署框架的不斷開源、進步,現在很多中小企業和開發者可以很快地用上大模型,摸清大模型落地的邊界,讓大模型產品有更多的玩法、可操作性更強,進而會推動AI的落地發展。
就像網上基于通義千問的開源大模型Qwen1.5-110B模型微調后的效果遠超原始模型一樣,開源亦有能量。
當然上面只是從技術思維來講開源的好處,但不可否認的是開源的商業模式確實不明朗,很難避免白嫖的現象。
我覺得從現在GPU的成本來看,很多選擇開源模型的企業還是在10B參數規模,太大了成本也兜不住,還不如選擇API,那么這時候占據開源市場的頭部企業的機會不就來了嘛。
開源大模型跟閉源大模型最后應該是相輔相成的,只是不同人群用的不同。窮玩家、愿意鉆研的玩家、需要有更多私有化定制的玩家,可能選擇去玩開源大模型。富有玩家、想伸手就用的玩家、追求更高逼格的玩家,可能選擇去玩閉源大模型。
開源模型與閉源模型的差距
個人認為,開源大模型跟閉源大模型最后應該是相輔相成的
lmsys.org對戰分數圖
真的不敢想想大模型發展會這么迅猛,不敢想想之前驚為天人的GPT3.5都已經不配跟頭部開源模型對標,都在對標GPT4。
從對戰榜單上來看,頭部模型中,開源模型占比不在少數,可以感覺出來差距在減小。從體驗上來說,頭部開源模型得效果也是不錯的。
閉源有數據壁壘,確實很難追,只能靠頭部開源組織發力,個體或者小組織只能縫縫補補啦,反正Pre-train真是做不了。
但也請別小瞧縫縫補補的工作,反正一些任務微調微調72B模型真能干過GPT4的。
開源模型哪家強
現在開源模型還是比較多,但國內的話,目前我認為是阿里云的通義千問,強不僅在效果上,還體現在全面性上。
Qwen是真開,1.5系列從0.5B、1.8B、7B、14B、32B、72B開到現在的110B、還有Code系列模型、MOE系列模型,1系列還有VL模型,全全全。
不管你需要多大尺寸的模型,Qwen都能滿足,并且效果都很棒。在HuggingFace推出的開源大模型排行榜Open LLM Leaderboard上,Qwen1.5-110B超越了Meta的Llama-3-70B模型,沖上榜首,證明其實力真的很強。
據不完全統計,現在Qwen開源模型下載了超過了700萬。
魔搭社區現在也是很能打,國內HuggingFace無法訪問的情況下,下載模型真得靠魔搭。同時還有免費GPU使用時長(偶爾測測小模型完全夠用),其他配套的模型訓練項目、Agent項目就不說了。
反正是應有僅有,很難不愛。
當然國內也有很多其他的開源模型,但是論全面,真還得是Qwen。
