編輯 | 言征
出品 | 51CTO技術棧(微信號:blog51cto)
2024最后一天,總是要寫一寫總結的。但大家都清楚,大模型相較于2023年來看,雖然模型的參數(shù)規(guī)模沒有卷大太多,但火爆的創(chuàng)新卻相較一年前有了從0到1的跨越。
今年既可以說是“大模型穩(wěn)健前行”的一年,也可以說是“大模型落地探索”的元年。這兩個維度少一個維度去講,都不太完整。
所以索性,小編直接不從這兩個維度入手,簡單粗暴地先為大家梳理那些“理想豐滿、現(xiàn)實骨感”的瞬間,再將一眾科技巨頭和創(chuàng)業(yè)者們的成績單(和感悟)整理在此,以供諸位閱讀。
“出道即巔峰”,打臉才是常態(tài)
1、英偉達逆襲成“斗帝”,B200是大招(不過產(chǎn)量低)
在大模型這片斗氣大陸上,強者為尊。英偉達作為旱澇無憂的新晉斗帝,吸金能力足以撼動半個地球,市值一路從2022 年的3640 億美元到2023年的年中的1萬億美元,再到如今的3.43萬億美元。然而恐怖如斯的GPU霸主,同樣也有打臉的瞬間。
圖片
3月19日深夜,GTC全場高潮迭起,黃仁勛“輕咬著舌頭、左手一個H100,右手一個B200”的照片,紛紛成為了業(yè)界媒體新聞的封面熱圖。Blackwell芯片作為黃教主預告的最強芯片,可謂吊足了全世界的胃口,包括一眾投資人的預期,外界感嘆:“太強了,抄無可抄!”
但可惜,臨近年底,英偉達三季度財報公布前,就曝出了英偉達B200芯片因芯片設計缺陷不得不將Blackwell架構芯片的生產(chǎn)和交付推遲了至少一個季度的消息。
小編語:打臉肯定是打臉!但不耽誤B200作為最強的GPU算力存在,沒有一開始就完美的產(chǎn)品,英偉達也不例外!在探索中打臉本就是個常態(tài)。
2、一款小玩意,賣瘋了,但很快被證偽。。。
新年伊始,1月中旬,一款口袋大小的橙色小設備,Rabbit R1迅速走紅網(wǎng)絡,這款設備在正式發(fā)布后的24小時內售出了10,000臺,售罄。
這小東西外觀大小如同“小霸王”掌中機,觸摸屏、旋轉式攝像頭、滾動輪。然而指令上,優(yōu)先考慮直觀的手勢和語音命令,而不是鍵盤和菜單。
圖片
該設備最大的亮點在于內置“大型操作模型(Large Action Model,LAM)”,堪稱“萬能應用控制器”,無需使用手機,就能集播放音樂、購物、發(fā)信息等多種功能于一身,甚至還能訓練它學習操作特定應用。
不過,Rabbit R1很快就被用戶反饋出不少毛病,雖然沒有像老對手“AI Pin”那樣烏泱泱地被退貨,但也給現(xiàn)在做AI硬件的人提了醒:
一、被用戶指責:買來基本沒啥用,因為它能做事情,在安卓上同樣能做,何苦交這個智商稅。二、Rabbit R1 作為用戶的個人助理,必然涉及到用戶的敏感個人信息,而 Rabbitude 團隊最新研究表明其 API 存在安全漏洞,導致用戶數(shù)據(jù)泄露。
小編語:做AI產(chǎn)品,idea也許可以讓你一夜爆紅,但事實證明:“實用+安全”才是硬通貨。
國內模型創(chuàng)業(yè)者們:努力留在牌桌上
1、下沉:中國大模型備案多達252款,超一半下沉到行業(yè)
大模型世界中,開宗立派的強者如林,截止到11月17日,網(wǎng)信辦公開的通過備案的大模型就多達252款。較去年年底,猛增了190款。
這190款中,其實行業(yè)大模型數(shù)量多達145個,占比高達76%,主要是教育、文化娛樂兩大核心場景。
而在去年,行業(yè)模型的占比僅為55%。上半年,總有103個大模型完成備案,其中1月、3月、5月的模型備案數(shù)量均超過20個;下半年,大模型備案數(shù)量為87個,其中10月更是備案數(shù)量更是創(chuàng)出歷史新高,達到31家。
圖片
這與全球大模型的發(fā)展趨勢有很大不同。根據(jù)lifearchitect.ai數(shù)據(jù),今年2月,全球發(fā)布新模型的數(shù)量達到28個,達到歷史最高峰。隨后這個數(shù)字開始持續(xù)下滑,10月單月全球新模型的數(shù)量只有12個,這也是2023年上半年的水平。
小編語:145家行業(yè)大模型通過備案,說明了國內對于“讓大模型下沉干實事”是達成了事實上的共識,只是入場者需要注意到模型發(fā)展會慢慢進入飽和期,從全球模型發(fā)布數(shù)量以明顯減少的趨勢看,一定要注意:2025將會是一場大考,活下去才是關鍵。
2、活下去:六小虎定位愈發(fā)清晰,努力留在牌桌上
在大模型創(chuàng)業(yè)領域,各家公司定位和融資情況各異。先來看國內六小虎的一年:
- 智譜AI以To B定位,今年完成兩輪融資,商業(yè)化收入增長超過100%。
- 月之暗面聚焦長文本領域,今年完成超十億美金融資,估值達25億美金。值得一提的是,kimi在月活表現(xiàn)上僅次于字節(jié)豆包,10月就達到了3600萬。
- Minimax在C端應用上取得成功,今年ARR收入或達7000萬美金,完成6億美元B輪融資。
- 百川智能明確AI應用場景,完成A輪融資,估值200億元。
- 零一萬物經(jīng)歷高管團隊動蕩,但發(fā)布千億參數(shù)模型,完成數(shù)億美元融資。
- 階躍星辰堅持AGI目標,12月完成數(shù)億美元融資。
圖片
其他玩家也有取得不錯的成績。面壁智能作為端側大模型玩家,完成數(shù)億元融資;生數(shù)科技和愛詩科技在AI視頻生成領域表現(xiàn)突出,愛詩科技完成近3億元人民幣融資。這些公司在大模型領域各有側重,融資情況顯示出市場對其技術和商業(yè)前景的認可。
小編語:大模型創(chuàng)業(yè)公司本身的進入門檻就很高,即便是已經(jīng)成為獨角獸估值的創(chuàng)業(yè)公司,也需要持續(xù)的融資才能在愈發(fā)激烈的競爭環(huán)境中找到屬于自己的PMF。努力活下去,2025才是一場生死大考。
3、開源:資源限制倒逼出國產(chǎn)之光反超Llama
12月26日晚,中國OSS界的新星DeepSeek開源了其最新研發(fā)的前沿模型V3,根據(jù)公布的性能基準測試,DeepSeek-V3在眾多其他開閉源模型中脫穎而出,表現(xiàn)優(yōu)于Meta的旗艦產(chǎn)品——擁有4050億個參數(shù)的Llama 3.1模型?!熬C合評估表明,DeepSeek-V3已成為當前可用的最強開源模型,其性能可與GPT-4o和Claude-3.5-Sonnet等領先的閉源模型相媲美?!?/span>
還有一點被人們津津樂道:2個月、2000張H800卡,就搞出了GPT-4o級別的模型。
圖片
小編語:如果說閉源是天花板,那么讓GPT4o人人都能掌握、用得上的還得是開源。另外,開源也許不會是最頂尖的存在,但是會讓大模型領域“書同文,車同軌,量同衡,行同倫”的必然之選。學術界、工程界需要這樣的開源技術才能有共同交流進步的基礎;此外,資源雖然可以限制想象,但同樣也可以倒逼我們重塑自身。
國內大廠的大模型成績單
國內幾家大廠在AI大模型和產(chǎn)品領域各有側重,百度和阿里在模型側和應用場景上表現(xiàn)突出,騰訊在多模態(tài)能力上有所建樹,而字節(jié)跳動則在應用端和智能硬件上展現(xiàn)出強勁的增長勢頭。
在大模型和產(chǎn)品領域,可以看到幾家各自都有自己的年度kpi:
1、百度文心一言:日均模型調用量15億,用戶規(guī)模4.3億
百度作為早期入局AI大模型的互聯(lián)網(wǎng)大廠,其文心大模型矩陣包括ERNIE 4.0 Turbo等旗艦大模型和輕量模型,日均調用量超15億,用戶規(guī)模達到4.3億。
產(chǎn)品側,文心一言App升級為“文小言”,定位“新搜索”智能助手,月活躍用戶達到千萬級別,累計調用量超過20億次。
百度強調知識增強、檢索增強及智能體技術,發(fā)布檢索增強的文生圖技術iRAG和多智能體應用秒噠和文心快碼。
2、阿里通義千問:將開源進行到底,夸克稱AI搜索一霸
阿里云發(fā)布通義千問新一代開源模型Qwen2.5,性能超越Llama 405B,覆蓋全場景,累計上架超100個模型,下載量突破4000萬。
夸克作為“AI全能助手”,重點升級AI搜索、AI寫作等功能,存量用戶與AI應用用戶畫像高度吻合,是阿里AI戰(zhàn)略的重要看點。
3、騰訊混元:發(fā)力多模態(tài),類Sora視頻模型開源
騰訊混元在基座模型和產(chǎn)品應用上相對掉隊,但多模態(tài)能力是亮點,特別是在視頻生成領域。
騰訊混元大模型宣布正式上線視頻生成能力,并開源130億參數(shù)量視頻生成大模型,是當前最大的視頻開源模型。
4、字節(jié)豆包:日活750萬,斷層領先,產(chǎn)品全系覆蓋
字節(jié)跳動豆包系列已包含多種模型,覆蓋文本、語音、圖片及視頻等多模態(tài)能力,近期加強視頻識別與理解能力。
豆包大模型日均tokens使用量超過4萬億,豆包App日活達760萬,成為日活斷層領先的AI應用。
字節(jié)跳動打造了自己的AI應用艦隊,覆蓋AIGC、Agent等主流方向,并在AI耳機、AI眼鏡等智能硬件上蓄勢待發(fā)。
小編語:國內互聯(lián)網(wǎng)大廠肯定希望用大模型的人多起來,但肯定也希望從中獲得相應的業(yè)務增長。有人說百度再一次起大早趕晚集,字節(jié)算是最舍得投入的公司,但這往往取決于各大廠對于在大模型的“斗氣大陸”中選擇的哪一系的修煉方向。百度偏向深入企業(yè)端,字節(jié)要在C端擊穿用戶場景。騰訊目前看,應該還在打磨killer App,阿里同樣也在重新布局中尋找AI時代的最強場景。
值得關注的幾個方向
1、FSD全自動駕駛:馬斯克跑通大模型Robotaxi
10月11日,馬斯克在“載入人類史冊”的發(fā)布會現(xiàn)場搭乘著完全無人駕駛的Robotaxi進入發(fā)布會現(xiàn)場,現(xiàn)場一陣歡呼!這一幕值得銘記。
這輛Cybercab極簡的設計,強調了未來感。這是一輛沒有方向盤、踏板和側后視鏡的車輛。當然這并不是重點,重點是這輛車的成本極低,馬斯克表示,一定能把價格打下來:Cybercab的自動駕駛成本,會隨著大規(guī)模的投產(chǎn)而持續(xù)降低,目標是從目前的每英里1美元,降低至0.2美元。
據(jù)悉,Cybercab將完全依賴特斯拉的全自動駕駛(FSD)軟件、不排除是攝像頭甚至是激光雷達的可能、交互則可能主要依賴Robotaxi APP。
也就是說,技術路線已經(jīng)被馬斯克驗證跑通。馬斯克所說的用無人駕駛來提高車的使用時長這一點也就行得通了。
小編語:這也就不難理解,雷軍和理想現(xiàn)在都不約而同的要實現(xiàn)“人車家”或者“硅基家人”,本質上都是要通過入局大模型,實現(xiàn)L4級的無人駕駛!
2、機器人or狗?
機器人賽道,同樣是一個天然和大模型相匹配的賽道。而且業(yè)內已經(jīng)驗證了可行性,高端的有特斯拉在10月“We Robot”活動上亮相的擎天柱,推出了第三代機械手,有22個自由度,堪稱霸榜。波士頓作為老玩家,e-Altas可以解鎖很多瘋狂的體操動作,實現(xiàn)360度的關節(jié)運轉。量產(chǎn)方面,傅氏智能的GR-1是少有的實現(xiàn)1000臺規(guī)模的大規(guī)模量產(chǎn)型號。此外,還有放生肌肉和肌腱設計的機器人開始涌現(xiàn)。
除了高端的賽道,廉價的家用機器人或機器狗,也開始得到業(yè)界的關注。這一類機器人比汽車便宜,可擴展性強,不難想象未來中產(chǎn)階層都可以人手一臺拉拉風。最近就有宇樹科技B2-W四輪機器狗,翻山越嶺過江,搭載主人如履平地,機動性遠超現(xiàn)實世界的牛馬。另外還有適合家居的斯坦福機器人ALOHA,兩個夾爪可完成煎蛋、折疊衣物等復雜動作,價位也非常便宜。
圖片
小編語:人形機器人和機器狗看似兩個方向,但最后都是為了節(jié)省人的時間,小編不相信大家會買來一臺把它當拉風的工具或者寵物來炫耀。如果要進軍這兩條賽道,入門的話可以看看開源的機器人設計方案,但切記:據(jù)小編線下了解,這個賽道水同樣很深,大模型、算法反而不是什么壁壘,壁壘更多在于算法之外的東西。
3、視頻生成和世界建模
之所以最后提視頻生成和世界建模,是因為小編想要閉環(huán)到最開始那個“出道即巔峰”的段落。
2024新春伊始,Sora橫空引爆整個業(yè)界對于AGI的想象,然而最終一直拖到12月才發(fā)布。作為同類產(chǎn)品中第一個高分辨率長視頻的生成產(chǎn)品,起大早趕晚集總是會讓人們產(chǎn)生祛魅之意。不過,是Sora給業(yè)界帶來了“文本調節(jié)的視覺世界模擬”的可能,更關鍵的是,這個模型還可以通過一些去燥和提督學習來學習更復雜的渲染和直觀的物理模擬。
此外,谷歌在這方面反而是推出了更精確的物理和細粒度的物體動力學的產(chǎn)品發(fā)布Veo。
值得關注的一個方向是,行動驅動的世界模型,比如GameGen、Genie-2等可以在擴散模型內使用操縱桿控制運行更多的游戲。
再有,就是華人大佬李飛飛領導創(chuàng)建的Worldlabs,非常有看頭:它具有很強的幾何一致性,一張圖可以生成一整個3D世界,應用前景十分廣闊。
寫在最后
2024,發(fā)生了太多值得回憶總結的內容,還有很多沒有提及,比如OpenAI帶頭讓強化學習回歸到AGI的Scaling Law中來,再比如谷歌的量子芯片。大模型時代剛剛2年,就已經(jīng)從底層到應用層涌現(xiàn)出了這么多令人難以置信的創(chuàng)新。
但小編想說的是,強如英偉達、OpenAI、蘋果同樣也會有在創(chuàng)新中打臉折戟的時刻,這是一個新時代從萌芽到繁榮的必經(jīng)之路。這一過程也許不會像《黑神話悟空》那樣打妖王升裝備那么酣暢淋漓,但肯定的一點是:現(xiàn)實比游戲更為精彩,創(chuàng)業(yè)者努力前行,好產(chǎn)品終會到來!
共勉,敬每一位2025的堅持者!新年快樂!