Llama3.1根本賣不動(dòng)!業(yè)內(nèi)人士:開源模型成本反而更高
Meta的開源大模型Llama 3在市場(chǎng)上遇冷,進(jìn)一步加劇了大模型開源與閉源之爭(zhēng)的關(guān)注熱度。
據(jù)外媒The Information報(bào)道,Meta的開源大模型Llama 3一直難以在全球最大云廠商——亞馬遜的AWS上獲得關(guān)注,AWS的企業(yè)客戶更傾向于使用Anthropic的閉源大模型Claude。
據(jù)微軟內(nèi)部人士透露,Llama也并非微軟的銷售首選,他們更傾向于將Llama推介給具備數(shù)據(jù)專業(yè)知識(shí)的公司,如內(nèi)部有工程師和數(shù)據(jù)科學(xué)家的公司。
Meta現(xiàn)面臨挑戰(zhàn),或?qū)⒓ぐl(fā)Meta自建AI產(chǎn)品的銷售團(tuán)隊(duì),直面企業(yè)需求。而這一系列問(wèn)題也突顯了開源大模型在商業(yè)化過(guò)程中的困難。從市場(chǎng)選擇來(lái)看,開源模型的實(shí)際效果和商業(yè)回報(bào)或許均未能滿足企業(yè)客戶預(yù)期。
面對(duì)“開源還是閉源”的問(wèn)題,國(guó)內(nèi)的各大模型廠商根據(jù)自身的技術(shù)路線和商業(yè)戰(zhàn)略,形成了截然不同的立場(chǎng)。那么,企業(yè)應(yīng)如何選擇大模型,以及在兩者之間如何找到最佳平衡點(diǎn)?
在此背景下,百度智能云AI與大模型平臺(tái)總經(jīng)理忻舟接受了媒體采訪,詳細(xì)解析了開源與閉源之爭(zhēng)的底層邏輯、商業(yè)策略,以及對(duì)未來(lái)市場(chǎng)的預(yù)判。
忻舟認(rèn)為,大模型的開源和軟件開源有本質(zhì)區(qū)別——開源模型因其并未開放訓(xùn)練源代碼、預(yù)訓(xùn)練和精調(diào)數(shù)據(jù)等影響模型效果的關(guān)鍵信息,所以無(wú)法像開源軟件一樣,靠社區(qū)開發(fā)者一起參與來(lái)提升效果和性能,而基座模型的訓(xùn)練只能掌握在廠商自己手里。
談及“開源模型和閉源模型誰(shuí)更貴”時(shí),忻舟表示,開源模型免費(fèi),給人一種低成本的印象,但大模型的應(yīng)用并不僅僅是單一的技術(shù),而是涵蓋“技術(shù)+服務(wù)”的完整解決方案,企業(yè)要算“總賬”。在業(yè)務(wù)實(shí)際落地時(shí),開源模型若想達(dá)到與閉源模型相同的效果,需要后續(xù)投入大量的人力、資金和時(shí)間,綜合成本反而更高。
開源模型和閉源模型分別適用于什么場(chǎng)景?忻舟認(rèn)為,開源模型更適合用于學(xué)術(shù)研究,但不適合對(duì)外提供服務(wù)的大型商業(yè)項(xiàng)目,在一些百萬(wàn)甚至千萬(wàn)投入的嚴(yán)肅項(xiàng)目中,閉源模型仍然是主角。
“開源模型并不便宜”
以下為訪談精編全文:
1、大模型市場(chǎng)中,各家模型廠商都扮演著什么角色?商業(yè)模式是怎樣的?
忻舟:在這場(chǎng)大模型盛宴中,每個(gè)廠商的定位和商業(yè)模式是不一樣的,大致可以分為三類:
第一類角色,對(duì)于云廠商來(lái)說(shuō),商業(yè)模式其實(shí)還是賣算力資源。通過(guò)規(guī)模化來(lái)降低成本、提升資源彈性能力,從而實(shí)現(xiàn)盈利,這是云廠商持久不變的模式。不管是開源模型還是閉源模型,只要托管在云廠商這里,云廠商就可以賺到錢。
第二類角色,既是云廠商又是模型廠商,他們希望通過(guò)模型的調(diào)用帶動(dòng)業(yè)務(wù)上云。目前只靠模型API調(diào)用的利潤(rùn)還很低,他們目前期望在市場(chǎng)上占據(jù)有利份額,在大模型的牌桌上,不斷尋找新的拓展機(jī)會(huì)。
第三類角色,對(duì)于創(chuàng)業(yè)的模型廠商來(lái)說(shuō),在各大云廠商宣布模型降價(jià)以后,他們的調(diào)用量下跌很厲害。大模型領(lǐng)域很快就會(huì)變成幾大云廠商之戰(zhàn),大模型創(chuàng)企要么專注到特定行業(yè)、要么做toB的私有化項(xiàng)目、要么轉(zhuǎn)型做toC產(chǎn)品。
2、為什么說(shuō)“開源模型并不便宜,而且技術(shù)會(huì)越來(lái)越落后”?
忻舟:先說(shuō)技術(shù)落后的問(wèn)題。
第一、大模型的開源并不能帶來(lái)模型效果的提升。
對(duì)比開源軟件,比如像手機(jī)操作系統(tǒng)安卓、數(shù)據(jù)庫(kù)軟件MySQL,這些開源軟件是所有的源代碼都開放出來(lái),全社會(huì)的開發(fā)者都可以參與代碼的開發(fā)。這不僅可以降低軟件的研發(fā)成本,還能加快軟件迭代速度,提升軟件安全性,這是開源對(duì)于軟件的價(jià)值。
而開源模型要復(fù)雜很多,它可以開源的包括模型訓(xùn)練源代碼、參數(shù)權(quán)重、訓(xùn)練數(shù)據(jù)等。但目前模型廠商通常僅僅開源參數(shù)權(quán)重,而訓(xùn)練源代碼、訓(xùn)練數(shù)據(jù)等均未開源,這就導(dǎo)致開發(fā)者無(wú)法去改進(jìn)它,也就無(wú)法對(duì)開源模型的效果做貢獻(xiàn)。
比如對(duì)于Llama來(lái)說(shuō),它每一次模型效果的進(jìn)步,其實(shí)都是 Meta自己訓(xùn)練的結(jié)果,而不是開發(fā)者參與的結(jié)果。Llama2和Llama3在網(wǎng)絡(luò)結(jié)構(gòu)上沒(méi)太大區(qū)別,它優(yōu)化的是什么?一方面優(yōu)化了訓(xùn)練階段的流程,比如說(shuō)多階段訓(xùn)練;另外就是加了很多數(shù)據(jù),Llama2和Llama3的數(shù)據(jù)相差一個(gè)數(shù)量級(jí),更多的數(shù)據(jù)和訓(xùn)練時(shí)間為模型帶來(lái)更好的效果。
但這些好的效果都是Meta自己搞的,沒(méi)辦法把開發(fā)者的力量都用起來(lái)的,更不會(huì)像開源軟件一樣有社區(qū)反哺的過(guò)程。
第二、開源模型會(huì)越來(lái)越落后是因?yàn)闆](méi)有良性的商業(yè)模式保證模型持續(xù)迭代。
模型訓(xùn)練、數(shù)據(jù)標(biāo)注是非常貴的,除非像Meta這樣有強(qiáng)大的公司資源用來(lái)支撐開源模型持續(xù)發(fā)展,如果是一個(gè)開源模型的創(chuàng)業(yè)公司,他就沒(méi)法形成商業(yè)閉環(huán)。同時(shí),開發(fā)者又不能對(duì)你的模型效果做貢獻(xiàn),所以創(chuàng)業(yè)公司來(lái)做這個(gè)一定是越來(lái)越落后。再?gòu)慕Y(jié)果上來(lái)看,最好的模型其實(shí)還是Open AI,現(xiàn)在評(píng)測(cè)榜排在最前面的模型都是閉源模型。
再說(shuō)開源模型為什么并不便宜。大模型的應(yīng)用是涵蓋“技術(shù)+服務(wù)”的完整解決方案,企業(yè)應(yīng)用大模型需要“算總賬”。總賬怎么算?
第一層,要算硬件資源成本。因?yàn)殚]源的商業(yè)模型會(huì)配套相應(yīng)的工具鏈,包括訓(xùn)練工具鏈、推理工具鏈,這些工具鏈的性能要比開源的好,對(duì)于客戶來(lái)說(shuō),訓(xùn)練就能省大概10~20%的硬件成本,推理的時(shí)候省得更多,業(yè)務(wù)規(guī)模越大,省得越多。
第二層,看模型帶來(lái)的業(yè)務(wù)收益。同等參數(shù)規(guī)模的模型,閉源效果更好,一些客戶對(duì)于90%還是95%的準(zhǔn)確率敏感度沒(méi)那么高。但是有一些業(yè)務(wù),比如說(shuō)商業(yè)廣告,在CPM、CTR差一個(gè)點(diǎn),對(duì)廣告平臺(tái)來(lái)說(shuō)一天就可能有上千萬(wàn)的出入,這種時(shí)候?qū)δP偷男Ч笤礁叩钠髽I(yè),就更愿意去買一個(gè)效果更好的閉源模型。
第三層,還有機(jī)會(huì)成本、人力成本。用閉源商業(yè)模型收斂得更快,就比競(jìng)爭(zhēng)對(duì)手更快推出新的產(chǎn)品。在閉源的商業(yè)模型中,廠商把模型和硬件都適配好了,調(diào)到了最優(yōu)狀態(tài),客戶直接復(fù)制成熟經(jīng)驗(yàn)就可以。但如果你用開源,還要自己去適配調(diào),投入的算力成本、工程師的成本更高。
所以我們說(shuō)企業(yè)應(yīng)用模型要“算總賬”,這個(gè)總賬算出來(lái)就會(huì)差很多。
3、為什么在硬件成本上,開源比閉源貴那么多?
忻舟:大多數(shù)企業(yè)客戶都會(huì)采買兩種或者兩種以上的硬件,因?yàn)樗紤]供應(yīng)鏈的安全性和靈活性,開源模型如果要在每個(gè)硬件上去做適配的話,它的成本會(huì)非常高。
這就體現(xiàn)出閉源商業(yè)模型的優(yōu)勢(shì)了,因?yàn)樗梢酝ㄟ^(guò)規(guī)模化售賣,來(lái)分?jǐn)傑浻布m配帶來(lái)的成本。而且,多芯適配是一個(gè)非常有技術(shù)含量的事兒,百度的百舸異構(gòu)計(jì)算平臺(tái)專門為多芯異構(gòu)做了很多優(yōu)化,對(duì)各種硬件都適配。百舸本身就可以屏蔽掉硬件層各種各樣的差異,有很多的加速庫(kù)、推理庫(kù)、訓(xùn)練庫(kù),百舸也為文心大模型提供了端到端的優(yōu)化。
這對(duì)于客戶的好處是,不管用什么硬件都可以快速跑起來(lái),省下來(lái)的時(shí)間和人力成本是非常高的。
4、開源模型和閉源模型分別適用于哪些場(chǎng)景?
忻舟:總體的思路是:你想在個(gè)別業(yè)務(wù)場(chǎng)景中做嘗試、做驗(yàn)證,可以先用閉源模型跑起來(lái),開箱即用,快速驗(yàn)證;在一些動(dòng)輒百萬(wàn)元、千萬(wàn)元級(jí)別的嚴(yán)肅商業(yè)項(xiàng)目中,對(duì)規(guī)模化、精度要求高的業(yè)務(wù)中,閉源的商業(yè)模型還是企業(yè)的最佳選擇。只有在一些對(duì)效果和性能要求不高,但要求必須私有化部署,且對(duì)價(jià)格又特別敏感的業(yè)務(wù)場(chǎng)景下,考慮使用開源模型。
開源對(duì)于學(xué)術(shù)和研究的推動(dòng)是有價(jià)值的,比如推理的工程性能優(yōu)化、預(yù)訓(xùn)練和精調(diào)數(shù)據(jù)對(duì)結(jié)果的影響等,如果他能夠開源更多的東西,比如說(shuō)訓(xùn)練代碼、訓(xùn)練數(shù)據(jù)、指令微調(diào)的數(shù)據(jù)等也開放出來(lái),它對(duì)于學(xué)術(shù)研究和技術(shù)發(fā)展的價(jià)值會(huì)更大。哪怕只開放了模型權(quán)重,也為研究者提供了一個(gè)很好的基座模型。
5、有些廠商希望開源閉源兩條路同時(shí)走通,即開源模型吸引用戶做大生態(tài),閉源模型專門負(fù)責(zé)商業(yè)化,這個(gè)邏輯走得通嗎?
忻舟:如果沒(méi)有實(shí)踐過(guò)的話,看上去貌似是可行的。但實(shí)際情況是:
在公有云上,各廠商公布的調(diào)用量中,閉源模型調(diào)用量遠(yuǎn)高于開源模型,說(shuō)明開源模型其實(shí)在公有云上并沒(méi)有起到吸引用戶做大生態(tài)的作用。而且在公有云上做微調(diào),開源或閉源模型都可以實(shí)現(xiàn),所以在公有云上客戶會(huì)直接選擇最好的模型。
在私有化部署上,這個(gè)邏輯在一定程度上是講得通的。很多企業(yè)最開始起步是拿開源模型測(cè)試,之后覺(jué)得效果不錯(cuò)要買了,會(huì)選擇開源模型對(duì)應(yīng)廠商的閉源模型,因?yàn)橥吹哪P蛯?duì)于prompt的適應(yīng)性更好,這種情況這個(gè)邏輯是成立的。但這種價(jià)值正在逐漸的縮小。因?yàn)楦鲝S商的模型通用能力都在快速提升,切換成本越來(lái)越低,逐步就抹平了這種模型的傳承性。
還有一些廠商推出開源模型是為了推廣硬件,比如英偉達(dá)推出開源模型,它的商業(yè)邏輯非常簡(jiǎn)單,用模型要買卡。
6、百度為什么一直沒(méi)推出開源模型?
忻舟:從各家廠商的調(diào)動(dòng)量上其實(shí)已經(jīng)明確看到,公有云上調(diào)用量大的都是商業(yè)閉源模型,開源模型對(duì)公有云并沒(méi)有太多影響。
而在私有化市場(chǎng)中,隨著客戶對(duì)大模型認(rèn)知不斷提升,開源閉源逐漸不再成為關(guān)鍵因素。我在和很多大型企業(yè)客戶交流后發(fā)現(xiàn),業(yè)務(wù)負(fù)責(zé)人要不要用一款模型有很多因素,按優(yōu)先級(jí)排序通常是:效果、性能、安全、價(jià)格。模型開源閉源并不是決定性因素。
7、您提到企業(yè)在選擇模型時(shí)最看重的是效果、性能、安全、價(jià)格,百度云推出的“千帆大模型一體機(jī)”是否正在嘗試一種新的軟硬一體的商業(yè)模式?
忻舟:目前,企業(yè)使用大模型還處在探索階段,非常需要低成本、開箱即用的產(chǎn)品來(lái)快速驗(yàn)證大模型的使用場(chǎng)景和效果。“千帆大模型一體機(jī)”很適合當(dāng)下的階段,因?yàn)樵趪?guó)內(nèi)有很多私有化部署的需求,我們的一體機(jī)是開放的,各種各樣的硬件都可以做適配,集成了市面上所有主流芯片和模型。百度智能云的千帆大模型一體機(jī)提供兩個(gè)能力:
第一,提供軟硬件適配的一體化平臺(tái),這個(gè)平臺(tái)內(nèi)置了文心大模型和業(yè)界主流的開源大模型、場(chǎng)景應(yīng)用樣板間。對(duì)于熱門的開源模型也都做過(guò)適配和優(yōu)化,用戶可以直接在一體機(jī)上面跑,無(wú)需自己去調(diào)模型了。同時(shí),千帆大模型一體機(jī)可以提供從基礎(chǔ)管控、AI框架、模型訓(xùn)練、預(yù)測(cè)推理、場(chǎng)景應(yīng)用于一身的大模型軟硬一體解決方案,為客戶提供全流程的軟硬件服務(wù)。
第二,千帆大模型一體機(jī)因?yàn)樽隽硕说蕉说男阅軆?yōu)化,能夠把所有硬件性能都榨出來(lái),所以性價(jià)比相當(dāng)高。客戶可以以一個(gè)較低的成本快速使用。
在整體價(jià)格上,千帆一體機(jī)的價(jià)格遠(yuǎn)低于分別采購(gòu)服務(wù)器和大模型及平臺(tái),對(duì)于客戶來(lái)說(shuō)能夠開箱即用。
8、現(xiàn)在很多人覺(jué)得,光用基礎(chǔ)大模型不行,大家還是要做行業(yè)模型才能真正實(shí)現(xiàn)大模型的產(chǎn)業(yè)落地。那目前企業(yè)自己訓(xùn)練一個(gè)行業(yè)模型要多少成本?
忻舟:成本很高。首先取決于要訓(xùn)練模型的參數(shù)規(guī)模,這個(gè)成本是線性增加的。其次,取決于數(shù)據(jù)量有多大。最后,是你的數(shù)據(jù)標(biāo)注成本。
你如果要從頭開始訓(xùn)一個(gè)70b的模型,用云的彈性資源可能需要3000萬(wàn)。如果要訓(xùn)參數(shù)量更大一點(diǎn)的模型,成本上億都有可能的。這還是有經(jīng)驗(yàn)的人去訓(xùn),如果沒(méi)經(jīng)驗(yàn),中間走了一些彎路,成本就更高了。
9、這么高的成本,企業(yè)如何判斷是否需要做行業(yè)模型?
忻舟:我們不建議客戶不管三七二十一的從一開始就做行業(yè)基座模型,收益怎么樣另說(shuō),成本一定非常高。我們會(huì)幫助客戶先做需求分析。
比如說(shuō),畫一個(gè)坐標(biāo)系,橫坐標(biāo)是任務(wù)的敏感性,縱坐標(biāo)是對(duì)行業(yè)數(shù)據(jù)的需求性。所謂任務(wù)的敏感性,是指場(chǎng)景是否與行業(yè)和業(yè)務(wù)強(qiáng)相關(guān),比如醫(yī)療領(lǐng)域,都是相當(dāng)專業(yè)的問(wèn)題。縱坐標(biāo)是對(duì)行業(yè)數(shù)據(jù)的需求性,行業(yè)越封閉、在公開網(wǎng)絡(luò)上的數(shù)據(jù)越少,就越需要做預(yù)訓(xùn)練。比如醫(yī)療領(lǐng)域,需要把一些脫敏后的病歷信息預(yù)訓(xùn)練到模型里面。
通過(guò)分析,在這個(gè)坐標(biāo)軸中,左下角既沒(méi)有行業(yè)特性,又不需要行業(yè)數(shù)據(jù),就可以直接用通用模型,但右上角對(duì)這個(gè)行業(yè)的業(yè)務(wù)屬性有敏感性,又需要很多的行業(yè)數(shù)據(jù),這個(gè)時(shí)候就需要做行業(yè)模型。
我們通常是建議企業(yè)分三步走。
第一步,價(jià)值驗(yàn)證。初步建設(shè)大模型軟硬件基礎(chǔ)設(shè)施,構(gòu)建初步的行業(yè)大模型。結(jié)合相對(duì)成熟的生成式AI的應(yīng)用,快速見到效果。比如通過(guò)千帆大模型平臺(tái)輕量版加上智能客服、企業(yè)知識(shí)管理、數(shù)字人等成熟的應(yīng)用。
第二步,深入對(duì)接企業(yè)的各種應(yīng)用。進(jìn)一步完善大模型基礎(chǔ)設(shè)施,升級(jí)為千帆大模型旗艦版,除了大模型相關(guān)的訓(xùn)練調(diào)優(yōu)外,也包含了應(yīng)用構(gòu)建的平臺(tái)。百度及生態(tài)伙伴深度參與到企業(yè)內(nèi)部大模型相關(guān)培訓(xùn)和運(yùn)營(yíng)中,構(gòu)建技術(shù)氛圍、培訓(xùn)相關(guān)人才,與企業(yè)一起攻堅(jiān)深入業(yè)務(wù)的難題,給企業(yè)帶來(lái)更多價(jià)值。
第三步,全面創(chuàng)新和自主可控。企業(yè)已經(jīng)掌握了大模型和應(yīng)用開發(fā)的相關(guān)技術(shù),也有了相應(yīng)的人才梯隊(duì),能夠更好的自主可控發(fā)展并開始全面創(chuàng)新。百度會(huì)作為長(zhǎng)期技術(shù)支持和顧問(wèn),協(xié)助發(fā)展,并不斷為企業(yè)帶來(lái)新的技術(shù)和方案。
10、您對(duì)未來(lái)一年的大模型市場(chǎng)如何判斷?
忻舟:對(duì)于未來(lái)一年的發(fā)展趨勢(shì)我有三個(gè)判斷:
第一,多模態(tài)會(huì)成為市場(chǎng)新的熱點(diǎn)。
第二,基于大模型的應(yīng)用會(huì)有一個(gè)大爆發(fā),非常重要的方向就是Agent(智能體)。大模型如果只做“輸入、輸出“的規(guī)定動(dòng)作,那會(huì)大大限制它的價(jià)值發(fā)揮,他應(yīng)該更像人,可以使用工具、互相協(xié)同、規(guī)劃思考、反思迭代。它要跟各種各樣的組件、插件結(jié)合,才能滿足特定業(yè)務(wù)場(chǎng)景的需求,所以Agent會(huì)成為接下來(lái)各家模型廠商起量的關(guān)鍵。
第三,做企業(yè)應(yīng)用的機(jī)會(huì)會(huì)變多,像知識(shí)庫(kù)、客服、數(shù)字人、輔助代碼編寫等場(chǎng)景。比如用大模型做代碼編寫,百度有一個(gè)產(chǎn)品叫“文心快碼”,在百度內(nèi)部已經(jīng)大規(guī)模應(yīng)用了,采納率能達(dá)到46%,新增代碼中生成的比例達(dá)到了30%,可以幫助企業(yè)大幅提升開發(fā)效率。同時(shí),大量做AI應(yīng)用開發(fā)的企業(yè)將涌現(xiàn)出來(lái),這些企業(yè)能夠?qū)?yīng)用的部署和復(fù)制成本降到足夠低,只要運(yùn)營(yíng)效率夠高,就能脫穎而出。