Llama3.1根本賣不動(dòng)！業(yè)內(nèi)人士：開源模型成本反而更高

作者：量子位 2024-08-27 14:20:00

Meta現(xiàn)面臨挑戰(zhàn)，或?qū)⒓ぐl(fā)Meta自建AI產(chǎn)品的銷售團(tuán)隊(duì)，直面企業(yè)需求。而這一系列問(wèn)題也突顯了開源大模型在商業(yè)化過(guò)程中的困難。

Meta的開源大模型Llama 3在市場(chǎng)上遇冷，進(jìn)一步加劇了大模型開源與閉源之爭(zhēng)的關(guān)注熱度。

據(jù)外媒The Information報(bào)道，Meta的開源大模型Llama 3一直難以在全球最大云廠商——亞馬遜的AWS上獲得關(guān)注，AWS的企業(yè)客戶更傾向于使用Anthropic的閉源大模型Claude。

據(jù)微軟內(nèi)部人士透露，Llama也并非微軟的銷售首選，他們更傾向于將Llama推介給具備數(shù)據(jù)專業(yè)知識(shí)的公司，如內(nèi)部有工程師和數(shù)據(jù)科學(xué)家的公司。

Meta現(xiàn)面臨挑戰(zhàn)，或?qū)⒓ぐl(fā)Meta自建AI產(chǎn)品的銷售團(tuán)隊(duì)，直面企業(yè)需求。而這一系列問(wèn)題也突顯了開源大模型在商業(yè)化過(guò)程中的困難。從市場(chǎng)選擇來(lái)看，開源模型的實(shí)際效果和商業(yè)回報(bào)或許均未能滿足企業(yè)客戶預(yù)期。

面對(duì)“開源還是閉源”的問(wèn)題，國(guó)內(nèi)的各大模型廠商根據(jù)自身的技術(shù)路線和商業(yè)戰(zhàn)略，形成了截然不同的立場(chǎng)。那么，企業(yè)應(yīng)如何選擇大模型，以及在兩者之間如何找到最佳平衡點(diǎn)？

在此背景下，百度智能云AI與大模型平臺(tái)總經(jīng)理忻舟接受了媒體采訪，詳細(xì)解析了開源與閉源之爭(zhēng)的底層邏輯、商業(yè)策略，以及對(duì)未來(lái)市場(chǎng)的預(yù)判。

忻舟認(rèn)為，大模型的開源和軟件開源有本質(zhì)區(qū)別——開源模型因其并未開放訓(xùn)練源代碼、預(yù)訓(xùn)練和精調(diào)數(shù)據(jù)等影響模型效果的關(guān)鍵信息，所以無(wú)法像開源軟件一樣，靠社區(qū)開發(fā)者一起參與來(lái)提升效果和性能，而基座模型的訓(xùn)練只能掌握在廠商自己手里。

談及“開源模型和閉源模型誰(shuí)更貴”時(shí)，忻舟表示，開源模型免費(fèi)，給人一種低成本的印象，但大模型的應(yīng)用并不僅僅是單一的技術(shù)，而是涵蓋“技術(shù)+服務(wù)”的完整解決方案，企業(yè)要算“總賬”。在業(yè)務(wù)實(shí)際落地時(shí)，開源模型若想達(dá)到與閉源模型相同的效果，需要后續(xù)投入大量的人力、資金和時(shí)間，綜合成本反而更高。

開源模型和閉源模型分別適用于什么場(chǎng)景？忻舟認(rèn)為，開源模型更適合用于學(xué)術(shù)研究，但不適合對(duì)外提供服務(wù)的大型商業(yè)項(xiàng)目，在一些百萬(wàn)甚至千萬(wàn)投入的嚴(yán)肅項(xiàng)目中，閉源模型仍然是主角。

“開源模型并不便宜”

以下為訪談精編全文：

1、大模型市場(chǎng)中，各家模型廠商都扮演著什么角色？商業(yè)模式是怎樣的？

忻舟：在這場(chǎng)大模型盛宴中，每個(gè)廠商的定位和商業(yè)模式是不一樣的，大致可以分為三類：

第一類角色，對(duì)于云廠商來(lái)說(shuō)，商業(yè)模式其實(shí)還是賣算力資源。通過(guò)規(guī)模化來(lái)降低成本、提升資源彈性能力，從而實(shí)現(xiàn)盈利，這是云廠商持久不變的模式。不管是開源模型還是閉源模型，只要托管在云廠商這里，云廠商就可以賺到錢。

第二類角色，既是云廠商又是模型廠商，他們希望通過(guò)模型的調(diào)用帶動(dòng)業(yè)務(wù)上云。目前只靠模型API調(diào)用的利潤(rùn)還很低，他們目前期望在市場(chǎng)上占據(jù)有利份額，在大模型的牌桌上，不斷尋找新的拓展機(jī)會(huì)。

第三類角色，對(duì)于創(chuàng)業(yè)的模型廠商來(lái)說(shuō)，在各大云廠商宣布模型降價(jià)以后，他們的調(diào)用量下跌很厲害。大模型領(lǐng)域很快就會(huì)變成幾大云廠商之戰(zhàn)，大模型創(chuàng)企要么專注到特定行業(yè)、要么做toB的私有化項(xiàng)目、要么轉(zhuǎn)型做toC產(chǎn)品。

2、為什么說(shuō)“開源模型并不便宜，而且技術(shù)會(huì)越來(lái)越落后”？

忻舟：先說(shuō)技術(shù)落后的問(wèn)題。

第一、大模型的開源并不能帶來(lái)模型效果的提升。

對(duì)比開源軟件，比如像手機(jī)操作系統(tǒng)安卓、數(shù)據(jù)庫(kù)軟件MySQL，這些開源軟件是所有的源代碼都開放出來(lái)，全社會(huì)的開發(fā)者都可以參與代碼的開發(fā)。這不僅可以降低軟件的研發(fā)成本，還能加快軟件迭代速度，提升軟件安全性，這是開源對(duì)于軟件的價(jià)值。

而開源模型要復(fù)雜很多，它可以開源的包括模型訓(xùn)練源代碼、參數(shù)權(quán)重、訓(xùn)練數(shù)據(jù)等。但目前模型廠商通常僅僅開源參數(shù)權(quán)重，而訓(xùn)練源代碼、訓(xùn)練數(shù)據(jù)等均未開源，這就導(dǎo)致開發(fā)者無(wú)法去改進(jìn)它，也就無(wú)法對(duì)開源模型的效果做貢獻(xiàn)。

比如對(duì)于Llama來(lái)說(shuō)，它每一次模型效果的進(jìn)步，其實(shí)都是 Meta自己訓(xùn)練的結(jié)果，而不是開發(fā)者參與的結(jié)果。Llama2和Llama3在網(wǎng)絡(luò)結(jié)構(gòu)上沒(méi)太大區(qū)別，它優(yōu)化的是什么？一方面優(yōu)化了訓(xùn)練階段的流程，比如說(shuō)多階段訓(xùn)練；另外就是加了很多數(shù)據(jù)，Llama2和Llama3的數(shù)據(jù)相差一個(gè)數(shù)量級(jí)，更多的數(shù)據(jù)和訓(xùn)練時(shí)間為模型帶來(lái)更好的效果。

但這些好的效果都是Meta自己搞的，沒(méi)辦法把開發(fā)者的力量都用起來(lái)的，更不會(huì)像開源軟件一樣有社區(qū)反哺的過(guò)程。

第二、開源模型會(huì)越來(lái)越落后是因?yàn)闆](méi)有良性的商業(yè)模式保證模型持續(xù)迭代。

模型訓(xùn)練、數(shù)據(jù)標(biāo)注是非常貴的，除非像Meta這樣有強(qiáng)大的公司資源用來(lái)支撐開源模型持續(xù)發(fā)展，如果是一個(gè)開源模型的創(chuàng)業(yè)公司，他就沒(méi)法形成商業(yè)閉環(huán)。同時(shí)，開發(fā)者又不能對(duì)你的模型效果做貢獻(xiàn)，所以創(chuàng)業(yè)公司來(lái)做這個(gè)一定是越來(lái)越落后。再?gòu)慕Y(jié)果上來(lái)看，最好的模型其實(shí)還是Open AI，現(xiàn)在評(píng)測(cè)榜排在最前面的模型都是閉源模型。

再說(shuō)開源模型為什么并不便宜。大模型的應(yīng)用是涵蓋“技術(shù)+服務(wù)”的完整解決方案，企業(yè)應(yīng)用大模型需要“算總賬”。總賬怎么算？

第一層，要算硬件資源成本。因?yàn)殚]源的商業(yè)模型會(huì)配套相應(yīng)的工具鏈，包括訓(xùn)練工具鏈、推理工具鏈，這些工具鏈的性能要比開源的好，對(duì)于客戶來(lái)說(shuō)，訓(xùn)練就能省大概10~20%的硬件成本，推理的時(shí)候省得更多，業(yè)務(wù)規(guī)模越大，省得越多。

第二層，看模型帶來(lái)的業(yè)務(wù)收益。同等參數(shù)規(guī)模的模型，閉源效果更好，一些客戶對(duì)于90%還是95%的準(zhǔn)確率敏感度沒(méi)那么高。但是有一些業(yè)務(wù)，比如說(shuō)商業(yè)廣告，在CPM、CTR差一個(gè)點(diǎn)，對(duì)廣告平臺(tái)來(lái)說(shuō)一天就可能有上千萬(wàn)的出入，這種時(shí)候?qū)δＰ偷男Ч笤礁叩钠髽I(yè)，就更愿意去買一個(gè)效果更好的閉源模型。

第三層，還有機(jī)會(huì)成本、人力成本。用閉源商業(yè)模型收斂得更快，就比競(jìng)爭(zhēng)對(duì)手更快推出新的產(chǎn)品。在閉源的商業(yè)模型中，廠商把模型和硬件都適配好了，調(diào)到了最優(yōu)狀態(tài)，客戶直接復(fù)制成熟經(jīng)驗(yàn)就可以。但如果你用開源，還要自己去適配調(diào)，投入的算力成本、工程師的成本更高。

所以我們說(shuō)企業(yè)應(yīng)用模型要“算總賬”，這個(gè)總賬算出來(lái)就會(huì)差很多。

3、為什么在硬件成本上，開源比閉源貴那么多？
忻舟：大多數(shù)企業(yè)客戶都會(huì)采買兩種或者兩種以上的硬件，因?yàn)樗紤]供應(yīng)鏈的安全性和靈活性，開源模型如果要在每個(gè)硬件上去做適配的話，它的成本會(huì)非常高。

這就體現(xiàn)出閉源商業(yè)模型的優(yōu)勢(shì)了，因?yàn)樗梢酝ㄟ^(guò)規(guī)模化售賣，來(lái)分?jǐn)傑浻布m配帶來(lái)的成本。而且，多芯適配是一個(gè)非常有技術(shù)含量的事兒，百度的百舸異構(gòu)計(jì)算平臺(tái)專門為多芯異構(gòu)做了很多優(yōu)化，對(duì)各種硬件都適配。百舸本身就可以屏蔽掉硬件層各種各樣的差異，有很多的加速庫(kù)、推理庫(kù)、訓(xùn)練庫(kù)，百舸也為文心大模型提供了端到端的優(yōu)化。

這對(duì)于客戶的好處是，不管用什么硬件都可以快速跑起來(lái)，省下來(lái)的時(shí)間和人力成本是非常高的。

4、開源模型和閉源模型分別適用于哪些場(chǎng)景？

忻舟：總體的思路是：你想在個(gè)別業(yè)務(wù)場(chǎng)景中做嘗試、做驗(yàn)證，可以先用閉源模型跑起來(lái)，開箱即用，快速驗(yàn)證；在一些動(dòng)輒百萬(wàn)元、千萬(wàn)元級(jí)別的嚴(yán)肅商業(yè)項(xiàng)目中，對(duì)規(guī)模化、精度要求高的業(yè)務(wù)中，閉源的商業(yè)模型還是企業(yè)的最佳選擇。只有在一些對(duì)效果和性能要求不高，但要求必須私有化部署，且對(duì)價(jià)格又特別敏感的業(yè)務(wù)場(chǎng)景下，考慮使用開源模型。

開源對(duì)于學(xué)術(shù)和研究的推動(dòng)是有價(jià)值的，比如推理的工程性能優(yōu)化、預(yù)訓(xùn)練和精調(diào)數(shù)據(jù)對(duì)結(jié)果的影響等，如果他能夠開源更多的東西，比如說(shuō)訓(xùn)練代碼、訓(xùn)練數(shù)據(jù)、指令微調(diào)的數(shù)據(jù)等也開放出來(lái)，它對(duì)于學(xué)術(shù)研究和技術(shù)發(fā)展的價(jià)值會(huì)更大。哪怕只開放了模型權(quán)重，也為研究者提供了一個(gè)很好的基座模型。

5、有些廠商希望開源閉源兩條路同時(shí)走通，即開源模型吸引用戶做大生態(tài)，閉源模型專門負(fù)責(zé)商業(yè)化，這個(gè)邏輯走得通嗎？

忻舟：如果沒(méi)有實(shí)踐過(guò)的話，看上去貌似是可行的。但實(shí)際情況是：

在公有云上，各廠商公布的調(diào)用量中，閉源模型調(diào)用量遠(yuǎn)高于開源模型，說(shuō)明開源模型其實(shí)在公有云上并沒(méi)有起到吸引用戶做大生態(tài)的作用。而且在公有云上做微調(diào)，開源或閉源模型都可以實(shí)現(xiàn)，所以在公有云上客戶會(huì)直接選擇最好的模型。

在私有化部署上，這個(gè)邏輯在一定程度上是講得通的。很多企業(yè)最開始起步是拿開源模型測(cè)試，之后覺(jué)得效果不錯(cuò)要買了，會(huì)選擇開源模型對(duì)應(yīng)廠商的閉源模型，因?yàn)橥吹哪Ｐ蛯?duì)于prompt的適應(yīng)性更好，這種情況這個(gè)邏輯是成立的。但這種價(jià)值正在逐漸的縮小。因?yàn)楦鲝S商的模型通用能力都在快速提升，切換成本越來(lái)越低，逐步就抹平了這種模型的傳承性。

還有一些廠商推出開源模型是為了推廣硬件，比如英偉達(dá)推出開源模型，它的商業(yè)邏輯非常簡(jiǎn)單，用模型要買卡。

6、百度為什么一直沒(méi)推出開源模型？

忻舟：從各家廠商的調(diào)動(dòng)量上其實(shí)已經(jīng)明確看到，公有云上調(diào)用量大的都是商業(yè)閉源模型，開源模型對(duì)公有云并沒(méi)有太多影響。

而在私有化市場(chǎng)中，隨著客戶對(duì)大模型認(rèn)知不斷提升，開源閉源逐漸不再成為關(guān)鍵因素。我在和很多大型企業(yè)客戶交流后發(fā)現(xiàn)，業(yè)務(wù)負(fù)責(zé)人要不要用一款模型有很多因素，按優(yōu)先級(jí)排序通常是：效果、性能、安全、價(jià)格。模型開源閉源并不是決定性因素。

7、您提到企業(yè)在選擇模型時(shí)最看重的是效果、性能、安全、價(jià)格，百度云推出的“千帆大模型一體機(jī)”是否正在嘗試一種新的軟硬一體的商業(yè)模式？

忻舟：目前，企業(yè)使用大模型還處在探索階段，非常需要低成本、開箱即用的產(chǎn)品來(lái)快速驗(yàn)證大模型的使用場(chǎng)景和效果。“千帆大模型一體機(jī)”很適合當(dāng)下的階段，因?yàn)樵趪?guó)內(nèi)有很多私有化部署的需求，我們的一體機(jī)是開放的，各種各樣的硬件都可以做適配，集成了市面上所有主流芯片和模型。百度智能云的千帆大模型一體機(jī)提供兩個(gè)能力：

第一，提供軟硬件適配的一體化平臺(tái)，這個(gè)平臺(tái)內(nèi)置了文心大模型和業(yè)界主流的開源大模型、場(chǎng)景應(yīng)用樣板間。對(duì)于熱門的開源模型也都做過(guò)適配和優(yōu)化，用戶可以直接在一體機(jī)上面跑，無(wú)需自己去調(diào)模型了。同時(shí)，千帆大模型一體機(jī)可以提供從基礎(chǔ)管控、AI框架、模型訓(xùn)練、預(yù)測(cè)推理、場(chǎng)景應(yīng)用于一身的大模型軟硬一體解決方案，為客戶提供全流程的軟硬件服務(wù)。

第二，千帆大模型一體機(jī)因?yàn)樽隽硕说蕉说男阅軆?yōu)化，能夠把所有硬件性能都榨出來(lái)，所以性價(jià)比相當(dāng)高。客戶可以以一個(gè)較低的成本快速使用。

在整體價(jià)格上，千帆一體機(jī)的價(jià)格遠(yuǎn)低于分別采購(gòu)服務(wù)器和大模型及平臺(tái)，對(duì)于客戶來(lái)說(shuō)能夠開箱即用。

8、現(xiàn)在很多人覺(jué)得，光用基礎(chǔ)大模型不行，大家還是要做行業(yè)模型才能真正實(shí)現(xiàn)大模型的產(chǎn)業(yè)落地。那目前企業(yè)自己訓(xùn)練一個(gè)行業(yè)模型要多少成本？

忻舟：成本很高。首先取決于要訓(xùn)練模型的參數(shù)規(guī)模，這個(gè)成本是線性增加的。其次，取決于數(shù)據(jù)量有多大。最后，是你的數(shù)據(jù)標(biāo)注成本。

你如果要從頭開始訓(xùn)一個(gè)70b的模型，用云的彈性資源可能需要3000萬(wàn)。如果要訓(xùn)參數(shù)量更大一點(diǎn)的模型，成本上億都有可能的。這還是有經(jīng)驗(yàn)的人去訓(xùn)，如果沒(méi)經(jīng)驗(yàn)，中間走了一些彎路，成本就更高了。

9、這么高的成本，企業(yè)如何判斷是否需要做行業(yè)模型？

忻舟：我們不建議客戶不管三七二十一的從一開始就做行業(yè)基座模型，收益怎么樣另說(shuō)，成本一定非常高。我們會(huì)幫助客戶先做需求分析。

比如說(shuō)，畫一個(gè)坐標(biāo)系，橫坐標(biāo)是任務(wù)的敏感性，縱坐標(biāo)是對(duì)行業(yè)數(shù)據(jù)的需求性。所謂任務(wù)的敏感性，是指場(chǎng)景是否與行業(yè)和業(yè)務(wù)強(qiáng)相關(guān)，比如醫(yī)療領(lǐng)域，都是相當(dāng)專業(yè)的問(wèn)題。縱坐標(biāo)是對(duì)行業(yè)數(shù)據(jù)的需求性，行業(yè)越封閉、在公開網(wǎng)絡(luò)上的數(shù)據(jù)越少，就越需要做預(yù)訓(xùn)練。比如醫(yī)療領(lǐng)域，需要把一些脫敏后的病歷信息預(yù)訓(xùn)練到模型里面。

通過(guò)分析，在這個(gè)坐標(biāo)軸中，左下角既沒(méi)有行業(yè)特性，又不需要行業(yè)數(shù)據(jù)，就可以直接用通用模型，但右上角對(duì)這個(gè)行業(yè)的業(yè)務(wù)屬性有敏感性，又需要很多的行業(yè)數(shù)據(jù)，這個(gè)時(shí)候就需要做行業(yè)模型。

我們通常是建議企業(yè)分三步走。

第一步，價(jià)值驗(yàn)證。初步建設(shè)大模型軟硬件基礎(chǔ)設(shè)施，構(gòu)建初步的行業(yè)大模型。結(jié)合相對(duì)成熟的生成式AI的應(yīng)用，快速見到效果。比如通過(guò)千帆大模型平臺(tái)輕量版加上智能客服、企業(yè)知識(shí)管理、數(shù)字人等成熟的應(yīng)用。

第二步，深入對(duì)接企業(yè)的各種應(yīng)用。進(jìn)一步完善大模型基礎(chǔ)設(shè)施，升級(jí)為千帆大模型旗艦版，除了大模型相關(guān)的訓(xùn)練調(diào)優(yōu)外，也包含了應(yīng)用構(gòu)建的平臺(tái)。百度及生態(tài)伙伴深度參與到企業(yè)內(nèi)部大模型相關(guān)培訓(xùn)和運(yùn)營(yíng)中，構(gòu)建技術(shù)氛圍、培訓(xùn)相關(guān)人才，與企業(yè)一起攻堅(jiān)深入業(yè)務(wù)的難題，給企業(yè)帶來(lái)更多價(jià)值。

第三步，全面創(chuàng)新和自主可控。企業(yè)已經(jīng)掌握了大模型和應(yīng)用開發(fā)的相關(guān)技術(shù)，也有了相應(yīng)的人才梯隊(duì)，能夠更好的自主可控發(fā)展并開始全面創(chuàng)新。百度會(huì)作為長(zhǎng)期技術(shù)支持和顧問(wèn)，協(xié)助發(fā)展，并不斷為企業(yè)帶來(lái)新的技術(shù)和方案。

10、您對(duì)未來(lái)一年的大模型市場(chǎng)如何判斷？

忻舟：對(duì)于未來(lái)一年的發(fā)展趨勢(shì)我有三個(gè)判斷：

第一，多模態(tài)會(huì)成為市場(chǎng)新的熱點(diǎn)。

第二，基于大模型的應(yīng)用會(huì)有一個(gè)大爆發(fā)，非常重要的方向就是Agent（智能體）。大模型如果只做“輸入、輸出“的規(guī)定動(dòng)作，那會(huì)大大限制它的價(jià)值發(fā)揮，他應(yīng)該更像人，可以使用工具、互相協(xié)同、規(guī)劃思考、反思迭代。它要跟各種各樣的組件、插件結(jié)合，才能滿足特定業(yè)務(wù)場(chǎng)景的需求，所以Agent會(huì)成為接下來(lái)各家模型廠商起量的關(guān)鍵。

第三，做企業(yè)應(yīng)用的機(jī)會(huì)會(huì)變多，像知識(shí)庫(kù)、客服、數(shù)字人、輔助代碼編寫等場(chǎng)景。比如用大模型做代碼編寫，百度有一個(gè)產(chǎn)品叫“文心快碼”，在百度內(nèi)部已經(jīng)大規(guī)模應(yīng)用了，采納率能達(dá)到46%，新增代碼中生成的比例達(dá)到了30%，可以幫助企業(yè)大幅提升開發(fā)效率。同時(shí)，大量做AI應(yīng)用開發(fā)的企業(yè)將涌現(xiàn)出來(lái)，這些企業(yè)能夠?qū)?yīng)用的部署和復(fù)制成本降到足夠低，只要運(yùn)營(yíng)效率夠高，就能脫穎而出。

責(zé)任編輯：張燕妮來(lái)源：量子位