盤點2023,大模型產(chǎn)業(yè)狂奔的365天
4萬億攝氏度(345MeV),是美國紐約布魯克黑文國家實驗室在2010年利用相對論性重離子對撞機(jī)進(jìn)行金離子對撞實驗時創(chuàng)造的,人類迄今為止所能制造的最高溫度,是太陽核心溫度的26萬倍。
如果說2023年有一項技術(shù)能夠達(dá)到如此空前的“熱度”,毫無疑問,那就是生成式大語言模型。
但是不同于那不足十億分之一秒的、轉(zhuǎn)瞬即逝的4萬億度高溫,大模型對各行各業(yè)的深遠(yuǎn)影響,在2023年既如“春雷萬鈞”,又似“潤物無聲”。所以,如果要用兩個關(guān)鍵詞形容2023年的大模型產(chǎn)業(yè),除了“熱”,還有“卷”。
2022年11月,ChatGPT橫空出世,在僅僅兩個月過后,ChatGPT月活躍用戶就成功破億,并成為史上月活用戶最快破億的消費級應(yīng)用。初出茅廬的ChatGPT像個全能戰(zhàn)士,能聊天、會寫代碼、寫論文…。在人們感慨這款對話應(yīng)用功能強(qiáng)大的同時,其背后的大模型——GPT,第一次真正意義上被推進(jìn)了所有公眾的視野。
現(xiàn)代AI技術(shù)主要是通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)來模擬人腦的學(xué)習(xí)過程,通過學(xué)習(xí)大量數(shù)據(jù)“沉淀”出AI模型,用來完成諸如圖像分類、目標(biāo)檢測、機(jī)器翻譯、語言理解等特定任務(wù)。但這一次的大模型不一樣了,超大規(guī)模的數(shù)據(jù)量、算力和神經(jīng)網(wǎng)絡(luò)規(guī)模使得模型產(chǎn)生了“智能涌現(xiàn)”。
目前,“智能涌現(xiàn)”最通俗的解釋,可能來自于百度創(chuàng)始人李彥宏,他認(rèn)為,過去的人工智能是,想讓機(jī)器學(xué)會什么技能,就教它什么技能。教過的,有可能會;沒教過的,就不會。大模型出現(xiàn)“智能涌現(xiàn)”之后,以前沒教過的技能,它也有可能會了。
2023年,大模型領(lǐng)域的研究與創(chuàng)新在國內(nèi)外“兩翼齊飛”。全球科技大廠與眾多創(chuàng)業(yè)公司、學(xué)術(shù)機(jī)構(gòu)紛紛投身這場技術(shù)浪潮。粗略統(tǒng)計,目前全球已經(jīng)發(fā)布了數(shù)百個大模型,可謂是在一年時間里,把一項通用技術(shù)“卷”上了天。
但是要在千行百業(yè)里種下大模型的“花”,除了模型本身,還需要針對大模型升級云計算基礎(chǔ)設(shè)施、配套相應(yīng)的平臺與工程化能力、配套面向上層應(yīng)用的全新范式開發(fā)工具。
卷模型:全球已發(fā)布幾百個基礎(chǔ)大模型,2024進(jìn)入大規(guī)模淘汰賽
作為大模型技術(shù)研究的全球領(lǐng)導(dǎo)者,OpenAI背靠微軟這位“金主爸爸”,在2023年3月、9月和11月,相繼推出GPT-4、GPT-4V、GPT-4 Turbo,在基礎(chǔ)大模型表現(xiàn)方面被公認(rèn)為遙遙領(lǐng)先,被全球同行玩家視作追趕對象和比較基準(zhǔn)。
但是在11月,OpenAI上演了一出聯(lián)合創(chuàng)始人、CEO——Sam Altman,被董事會閃電解雇,到加入微軟、最終回歸的“宮斗”鬧劇后,不少人也對OpenAI未來前景產(chǎn)生了一定擔(dān)憂。
作為OpenAI最強(qiáng)有力的競爭對手,Anthropic由前OpenAI高管創(chuàng)立。
23年3月和7月,Anthropic陸續(xù)發(fā)布了旗下大模型產(chǎn)品Claude和Claude 2,并且推出了直接與ChatGPT競爭的對話機(jī)器人應(yīng)用,強(qiáng)調(diào)打造“安全且負(fù)責(zé)任的AI”。值得一提的是,Claude 2剛推出時支持100k上下文窗口,11月升級2.1版本,支持200k“超大杯”上下文窗口,分別對GPT-4和GPT-4 Turbo實現(xiàn)了碾壓。Anthropic優(yōu)異的表現(xiàn)也在23年下半年吸引了來自亞馬遜的40億美元、谷歌的20億美元新投資。
如果說OpenAI賦予了GPT靈魂,那么這具“軀殼”在早年間可以說是Google給的。
作為Transformer架構(gòu)的始作俑者,Google在2023年也不甘落后,推出了PaLM 2 、Gemini等現(xiàn)象級大模型;在大模型領(lǐng)域沉寂許久的云計算巨頭AWS,在4月發(fā)布Titian大模型后,直至年底才被爆料正在訓(xùn)練一個新的、內(nèi)部代號為「Olympus」的大模型,參數(shù)將高達(dá)2萬億;此外,阿聯(lián)酋的技術(shù)創(chuàng)新研究所(TII)與Meta則發(fā)力開源,TII最新發(fā)布的Falcon 180B對Meta的Llama 2實現(xiàn)了超越,成為迄今為止最強(qiáng)的開源大模型。
回到國內(nèi)市場,最先發(fā)力大模型的企業(yè)是百度。
2023年3月,百度率先推出生成式大語言模型——文心一言,填補(bǔ)了國內(nèi)這一領(lǐng)域空白,并在發(fā)布后四個月內(nèi),高速迭代至3.5版本,相比3.0版本,訓(xùn)練速度提高了2倍,推理速度提高了30倍,模型效果累計提升超過50%。在首個真正意義上的權(quán)威機(jī)構(gòu)評測(IDC《AI大模型技術(shù)能力評估報告,2023》)中,文心大模型超越GPT-3.5,并摘得國內(nèi)大模型表現(xiàn)第一名的桂冠。10月,李彥宏宣布文心大模型4.0正式發(fā)布,并發(fā)表了“文心大模型4.0綜合能力與GPT-4相比毫不遜色”的豪言壯語。
此外,阿里巴巴與騰訊則分別在上、下半年發(fā)布了自家的大模型:通義千問和混元。隨著百川智能、智譜AI、零一萬物等一眾初創(chuàng)公司加入基礎(chǔ)大模型混戰(zhàn),國內(nèi)大模型市場徹底進(jìn)入“戰(zhàn)國”時代。
卷算力:大模型率先重構(gòu)云計算,2024智能計算開始拼「性價比」
大模型需要巨量的算力資源來支撐龐大的系統(tǒng)和訓(xùn)練、推理任務(wù)。
從全球主流大模型玩家的成分中我們不難看出,如AWS、微軟、Google、百度、阿里等,本身都是云計算廠商,有著充足的算力儲備。而OpenAI、Anthropic、智譜AI、百川智能等創(chuàng)業(yè)公司雖然自身不具備云服務(wù)能力,但也需要依附云計算廠商才能實現(xiàn)模型的迭代升級。
收入創(chuàng)下 181.2 億美元的紀(jì)錄,環(huán)比增長 34%,同比增長 206%;數(shù)據(jù)中心收入創(chuàng)下 145.1 億美元的紀(jì)錄,環(huán)比增長 41%,同比增長 279%,這是英偉達(dá)交出的第三季度財報數(shù)據(jù)。創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“從公司強(qiáng)勁的增長中可知,各行各業(yè)都在經(jīng)歷從通用計算到加速計算和生成式 AI 的平臺轉(zhuǎn)型。”
云計算廠商在大模型發(fā)展浪潮中有著創(chuàng)業(yè)公司無法比擬的巨大優(yōu)勢。近期,Omdia Research發(fā)布的英偉達(dá)GPU出貨量測算圖在網(wǎng)絡(luò)上走紅,則在一定程度上反映了云計算大廠對AI算力的焦慮。但是大模型的算力僅靠買買買就夠了嗎?
事實上,云計算廠商普遍選擇多條腿走路的方式,除了囤積GPU以外,基于自身對大模型技術(shù)的理解,打造面向大模型訓(xùn)練、推理場景的專屬的DSA(Domain Specific Architecture)架構(gòu)芯片,規(guī)模化使用后不但可以攤薄成本,還可以避免未來被單一GPU供應(yīng)商所綁定。比如AWS打造的Trainium和Inferentia系列芯片、微軟的Maia、華為的昇騰、百度昆侖芯等。
隨著摩爾定律放緩甚至失效,大模型對智算集群有效算力、穩(wěn)定性提出極高要求,異構(gòu)算力和智算集群的系統(tǒng)級優(yōu)化至關(guān)重要,比如微軟除了大宗采購英偉達(dá)GPU之外,還將大力引入AMD Instinct MI300X等異構(gòu)算力,并大力優(yōu)化基于自研芯片Maia的智算集群。
國內(nèi),以百度為首的云計算廠商也在智算領(lǐng)域投入了大量精力。比如百度在年底發(fā)布了基于自研昆侖芯和華為昇騰打造的兩款A(yù)I計算實例,升級AI異構(gòu)計算平臺百舸3.0,萬卡集群有效訓(xùn)練時間占比達(dá)到98%,同時兼容一眾國內(nèi)外主流AI芯片等舉措,可謂是珠玉在前,國內(nèi)市場無人出其右。
卷工具:大模型從“毛坯房”到“精裝修”,2024繼續(xù)卷“平臺配套”
大模型技術(shù)的突破,除了大數(shù)據(jù)、大算力這些“硬疙瘩”,背后常常被忽視的還有平臺、工程化等方面的積累,這些也是客戶用好大模型的關(guān)鍵要素。
創(chuàng)業(yè)公司普遍聚焦開發(fā)大模型本身,并且有不少選擇了開源路線。雖然開源擁有更好的靈活性,但是大模型時代,除了昂貴的算力成本,缺少配套工具還會產(chǎn)生極高的隱形成本,并對客戶AI技術(shù)儲備和二次開發(fā)能力提出了極高要求。對于用戶來說,大模型不應(yīng)該是“毛坯房”,也不能沒有“物業(yè)”。
有別于傳統(tǒng)深度學(xué)習(xí)時代小模型的開發(fā)范式,大模型需首先要全新的、完整的工具鏈來支撐從數(shù)據(jù)管理、到模型的重訓(xùn)、精調(diào)、評估等開發(fā)的全流程。而在全球范圍內(nèi),首先推出此類平臺的既不是OpenAI、也不是微軟、AWS、Google這些海外巨頭,而是百度。
大模型本身和配套工具必須得齊步走,不然光說大模型落地千行百業(yè),模型廠商能挨家挨戶做定制化嗎?這一點上,百度想的很清楚。
2023年3月,百度推出文心一言大模型時,李彥宏講到文心一言更大的故事是在云計算。短短10天之后,百度智能云就揭曉了答案,推出全球首個企業(yè)級一站式大模型平臺千帆,宣告百度不但能做出國內(nèi)最好的大模型,還要幫其他人做好大模型。而在5月的一場活動中,百度工程師還在國內(nèi)首次演示了如何基于一站式平臺微調(diào)行業(yè)專屬大模型的全過程。
圖片
隨后,阿里云CTO周靖人在10月底的云棲大會發(fā)布了阿里云百煉大模型服務(wù)平臺;微軟則是在11月中旬發(fā)布了自家大模型服務(wù)平臺Azure AI Studio;AWS則是在11月底才更新了Amazon Bedrock服務(wù)功能,新增包括模型微調(diào)、基于Amazon Titan大模型的預(yù)訓(xùn)練等功能。
卷應(yīng)用:應(yīng)用開發(fā)范式被全面顛覆,2024 AI原生應(yīng)用將涌現(xiàn)
在模型之上,如何幫助用戶開發(fā)大模型應(yīng)用,也是必須解決的問題。說到底,大模型是一項新技術(shù),本身并不帶來價值,真正創(chuàng)造巨大價值的是模型上層的應(yīng)用。對此,各大廠商的思路則有所不同。
OpenAI、微軟選擇了相對封閉的,強(qiáng)化自身應(yīng)用生態(tài)的策略。比如OpenAI在23年11月召開的首屆開發(fā)者大會上,連續(xù)放出GPTs和AssistantAPI兩大GPT原生應(yīng)用開發(fā)殺手锏,也給一直趨附自己的AI Agent創(chuàng)業(yè)公司和大模型中間件廠商敲響了警鐘;微軟則推出Copilot Studio,幫助用戶構(gòu)建基于Microsoft 365全家桶的智能助理。
其他廠商選擇了更開發(fā)的方式,但在幫助用戶開發(fā)大模型應(yīng)用這件事兒上,除百度以外則鮮有發(fā)力。百度在2023下半年針對大模型應(yīng)用開發(fā),發(fā)布了AI原生應(yīng)用開發(fā)工作臺AppBuilder,將開發(fā)大模型應(yīng)用常用的原子化組件、RAG(檢索生成增強(qiáng))、Agent等框架進(jìn)行了封裝和模板呈現(xiàn),開放低代碼和代碼態(tài)兩種產(chǎn)品形態(tài)去適配不同開發(fā)者的需要。值得一提的是,百度沒有將應(yīng)用開發(fā)與自家文心大模型做緊耦合,而是在文心大模型之外預(yù)置了經(jīng)過增強(qiáng)處理的幾十個主流開源大模型,給開發(fā)者更多選擇。
圖片
不同于HuggingFace、魔搭等模型社區(qū),更多面向開發(fā)者的定位,百度更注重應(yīng)用與產(chǎn)業(yè)生態(tài)的建設(shè),從大模型平臺調(diào)好的模型直接通往應(yīng)用工作臺,從應(yīng)用工作臺開發(fā)好的應(yīng)用則可以上架AI原生應(yīng)用市場,形成技術(shù)到市場,再到商業(yè)的鏈路閉環(huán)。
而在大模型落地行業(yè)方面,前有華為喊出盤古大模型“不作詩、只做事”,后有百度智能云基于大模型重構(gòu)政務(wù)、金融、工業(yè)、交通四大行業(yè)解決方案,為行業(yè)ISV提供全鏈路支持體系。我們有理由期待,在大模型技術(shù)落地行業(yè)方面,中國速度將再次震驚世界。
回望2023,大模型這個科技界的“天選之子”破圈突圍,成為全社會熱點,但它畢竟還是個“孩子”,在熱切的期待下也難免會使人感受到落差。對于普通民眾和來說,大模型引領(lǐng)的“智能曙光”正在照進(jìn)現(xiàn)實;但對于投身大模型浪潮的科技公司來說,還有很多亟待完成的工作。
Sam Altman在圣誕節(jié)前夕寫下了OpenAI 的2024發(fā)展清單。下一個,又會是誰?