李沐大模型創業一年總結:張一鳴、宿華建議,寫信給黃仁勛,收支打平
李沐大神在去年2月創業創辦了大模型公司BosonAI,就在14日,他在知乎上發表了創業一年后的反思,這里為諸位奉上原文(《創業一年,人間三年》),希望能給GenAI浪潮中的你我一些啟發。
在Amazon呆到第五年的時候就想著創業了,但被疫情耽擱了。到第7年半的時候,覺得太癢了,就提了離職。現在想來,如果有什么事這一輩子總要試下的,就蹭早。因為真開始后會發現有太多新東西要學,總感嘆為啥沒能早點開始。
名字:BosonAI的來源
創業前做了一系列用Gluon命名的項目。在量子物理里,Gluon是把夸克綁在一起的一種玻色子,象征這個項目一開始是Amazon和Microsoft的聯合項目。當時項目經理拍拍腦袋名字就出來了,但取名對程序員來說很困難,我們每天都在糾結各種文件名和變量名。最后新公司干脆就用玻色子(Boson)來命名了。希望大家能get到“Boson和費米子組成了世界”這個梗時會會心一笑。但沒料到很多人會看成Boston。
“我來波士頓了,找個時間碰碰?” “哈?可我在灣區呀 ”
融資:簽字前一天領投方跑路
22年年底的時候想到兩個用大語言模型(LLM)做生產力工具的想法。碰巧遇到張一鳴,就向他請教。討論之后他反問:為什么不做LLM本身呢?我的下意識退縮:我們之前在Amazon的團隊做了好幾年這個,得上萬張卡,和blabla這么一大堆困難。一鳴呵呵表示:這些都是短期困難,眼光得看長遠點。
我的優點是聽勸,真就去做LLM了。湊齊了數據、預訓練、后訓練、和架構各方向負責人的創始團隊,就去融資了。運氣不錯,很快拿到了種子投資。但錢還不夠買卡,得去拿第二輪。這一輪領頭是一家非常大的機構,做了幾個月文檔、商討條款。但在簽字前一天,領頭說不投了,直接導致了跟投的幾家退出。很感激剩下的投資方,還是做完了這一輪,拿到了做LLM的入場券。
今天反思的話,當時蹭著資本市場熱情還在,其實可以繼續融資,說不定也跟其他友商一樣,現在十億現金在手。當時擔心融資太多,會不好退出,或者被架到天上去了。現在想來,創業就是想逆天改命,想什么退路呢?
機器:第一批吃螃蟹的人
有了錢后就去買GPU。問各個供應商,統一回復是H100交貨得一年以后了。靈機一動,直接給老黃寫郵件。老黃秒回說他來看下。一個小時后超微的CEO就打電話過來了。多付了些錢,插了個隊,20天后拿到了機器。很榮幸早早的吃到了螃蟹。
螃蟹吃到懷疑人生,遇到了各種匪夷所思的bug。例如GPU供電不足導致不穩定,后來靠超微工程師修改bios代碼打上補丁;例如光纖的切開角度不對,導致通訊不穩定;例如Nvidia的推薦網絡布局不是最優,我們重新做一個方案,后來Nvidia自己也采用了這個方案。至今我都不理解,我們就買了不到一千張卡,算小買家吧。但我們遇到的這些問題,難道大買家沒遇到嗎,為啥需要我們的debug?
同時我們還租了同樣多的H100,一樣是各種bug,GPU每天都出問題,甚至懷疑是不是這個云上就我們一個吃螃蟹的。后來看到Llama 3的技術報告說他們改用H100后,訓練一次模型被打斷幾百次,對字里行間的痛苦,很是共情。
如果對比自建和租卡的話,租三年成本和自建成本差不多。租卡的好處是省心。自建的好處有兩個。一是三年后如果Nvidia技術還遙遙領先,那么它能控制價格使得GPU仍然保值 。另一個是自建的數據存儲成本低。存儲需要跟GPU比較近,不管是大云還是小GPU云,存儲價格都高。但一次模型訓練可以用幾TB空間存checkpoint,訓練數據存儲是10PB起跳。如果用AWS S3的話,10PB一年兩百萬。這錢用來自建的話,可以上100PB。
商業:感恩客戶,第一年收支平衡
非常幸運的,我們第一年收入和支出是打平的。我們支出主要在人力和算力上,感謝Openai的財力和Nvidia的遙遙領先,這兩項支出都挺大的 。我們的收入來源是給大客戶做定制的模型。很早就上LLM的公司大都是因為CEO非常有決策力,他們沒被高昂的算力和人力成本嚇到,果斷的去推動內部團隊配合嘗試新技術。非常感恩客戶給了我們喘氣的時間,不然這個幾個月我又是奔波在各個投資人那里。
接下來應該會有更多公司去嘗試使用LLM,不論是自己產品的升級,還是降本增效。原因是一方面技術成本在降低,另一方面行業領先者(例如我們客戶)會陸續放出基于LLM的產品出來,把行業卷了起來。
我們也在關注LLM在toC上的落地。上一波頂流例如c.ai和perplexity還在找商業模式,但也有小十來家LLM原生應用收入還不錯。我們給一家做角色扮演的創業公司提供了模型,他們主打深度的玩家,打平了收入和支出,也是厲害的。模型能力還在進化,更多模態(語音、音樂、圖片、視頻)在融合,相信接下來還會有更有想象力的應用出現。
整體來說行業和資本還是急躁的。今年好幾家成立一年多但融資上十億的公司選擇退出。從技術到產品是一個很長的過程,花2、3年實屬正常。算上用戶的需求的涌現,可能得花更長時間。我們專注當下在迷霧中探路,對未來保持樂觀。
技術:LLM認知的四個階段
對LLM的認知經歷了四個階段。第一階段是Bert到GPT3,感受是新架構,大數據,這個可以搞。我們在Amazon的時候也是第一時間去做了大規模的訓練和在產品上的落地。
第二階段是剛創業的時候GPT4了放出來,大受震撼。大半原因來自技術不公開了。根據小道消息估算一次模型訓練一個億,標數據成本幾千萬。很多投資人問我復現GPT4成本得多少,我說3-4億要把。后來他們中一家真一把投了大幾億出去。
第三階段是創業的第一個半年。我們做不動GPT4,那就想著從具體的問題出發吧。于是開始找客戶,有游戲的、教育的、銷售的、金融的、保險的。針對具體的需求去訓練模型。一開始市面上沒有好的開源模型,我們就從頭訓練。后來很多很好的模型出來了,降低了我們成本。然后針對業務場景設計評估方法,標數據,去看模型哪些地方不行,針對性提升。
23年年底時,驚喜發現我們的Photon(Boson的一種)系列模型在客戶應用上的效果都打贏GPT4了。定制模型的好處是推理成本是調用API的1/10。雖然今天API已經便宜很多,但我們自己技術也同樣在進步,仍然是1/10成本。另外,延時等都可以更好的控制。這個階段的認知是對于具體應用,我們是可以打贏市面最好模型的。
第四階段是創業的第二個半年。雖然客戶拿到了合同里要的模型,但還不是他們理想中的東西,因為GPT4還遠不夠。年初時發現針對單一應用訓練,模型很難再次飛躍。回過頭想,如果AGI是達到普通人類水平,客戶要的是專業人士的水平。游戲要專業策劃和專業演員、教育要金牌老師、銷售要金牌銷售、金融保險要高級分析師。這都是AGI加上行業專業能力。雖然當時我們內心對AGI充滿敬畏,但感覺是避不開的。
年初我們設計了Higgs(上帝粒子,Boson的一種)系列模型。主打通用能力緊跟最好的模型,但在某個能力上突出。我們挑選的能力是角色扮演:扮演虛擬角色、扮演老師、扮演銷售、扮演分析師等等。24年年中的時候迭代到第二代,在測試通用能力的Arena-Hard和AlpacaEval 2.0上,V2跟最好的模型打得有來有回,在測試知識的MMLU-Pro上也沒差很遠。
Higgs-V2是基于Llama3 base,然后做了完整的post-training。我們沒資源像Meta那樣花大錢標注數據,所以V2比Llama3 Instruct好,原因應該還是主要來自算法的創新。
然后我們做了個評估角色扮演的評測集,包含按照人設扮演,和按照場景扮演。怪不好意思是自己的模型在自己的榜單上拿了第一。但模型訓練中是沒有碰評測用的數據。因為這個評測集是想自用,希望能真實反映模型能力,所以要避免模型overfit數據集。但做評測集的同學想寫技術報告,所以干脆放出來了。有意思的是,按角色扮演的測試樣本來自c.ai,但他們家的模型能力是墊底的。
第四階段的認知是,好的垂直模型通用能力也不能弱,例如reasoning,instruction following這些能力垂直上也是需要的。長遠來看,通用和垂直模型都得朝著AGI去。只是垂直模型可以稍微偏科一點,專業課高分,通用課還行,所以研發成本稍微低一點,研發方式也會不太一樣。
那第五階段認識呢?現在仍在進行中,希望能很快分享。
愿景:人類陪伴
說來慚愧,我們蒙頭做技術,給客戶做定制,然后再慢慢想我們自己追求什么愿景。我們去看客戶想要什么、我們自己想要什么、未來可能需要什么。我自己的話,多年前我憧憬有個機器人保姆能幫我帶娃、陪他們,因為干這個我覺得很難,而且也不太理解娃當前的認知和想法。我希望工作上有個非常厲害的虛擬助手能跟我一起發明新的東西。等我老了也想有很有意思的機器人陪著。我對于未來的預測是,生產工具越來越發達,一個人完成之前一個團隊才能完成的事情,導致人類更加個體獨立,大家都忙著追求自己的事情,從而更加孤獨。
這些綜合在一起,我們把愿景定成了“人類陪伴的智能體”。一個情商很高的,智商在線的智能體。算換成現實中的人的話,應該會是一個專業團隊。例如你想讓它陪你玩,那它是專業策劃+演員。陪你運動,那么鼓勵師+專業運動教練。陪你學習,那么能把你不懂的講懂。模型的好處是,它能做長期的陪伴,真的了解你。而且可以“真心為你”。
不過目前技術離愿景還挺遙遠。當下技術就能陪著聊聊。很多場景下聊得也不是那么好,內容匱乏,智商情商有時都不在線。都是當下要解決的問題。如果有小伙伴做這一塊的海外應用,歡迎聯系我們。
團隊:有挑戰的事情得靠團隊
創業之后才真正覺得團隊的重要性。在大廠的時候,覺得自己是個螺絲釘,團隊成員是螺絲,甚至團隊也是個螺絲釘。但創業團隊就是一輛車。車小點,但能跑,能載重,轉彎靈活,各個角落都能去。公司成立不久的時候,米哈游老蔡來看了眼,看見所有人在一間房子里,他感慨說小團隊真好。
不方便的地方當然也是有的,時刻要看有沒有油,不好走的路得小心別把車震散架了。每個成員都很重要,沒有冗余,一個人不給力,就可能是一個輪胎沒氣。人也寶貴,走一個人就可能少一個輪胎。
以前我選項目會選自己能主導開發的。但這也意味著問題不會超出我能力太多。創業選了個很大的問題去做,只能全靠團隊了。別看本文里用了大量的“我”,其實工作都是團隊做的。沒了團隊,我可能得轉行去賣課了(此處不需要掌聲)。
個人追求:名還是利?
到目前為止我都靠跟著內心的聲音做決定,工作后再去讀博、去做視頻、去創業。創業需要強烈動機的支撐,才能克服層出不窮的困難。這需要對自己的動機做更深入的分析。
動機要么來自欲望,要么來自恐懼。十年前我可能更熱衷名利,但到了現在的年紀,覺得金錢的邊際效用已經不高,名聲帶來的情緒價值也已經很小。我深層的動機來自對生命可能沒有意義的恐懼。先不說宇宙的浩瀚,就是在人類的歷史長河,一個人也只是一粒沙。意外的到來,迅速的消失。地球上生活過一千億人,絕大部分人不會在歷史上留下痕跡。我家家譜上那上千個人名,我幾乎都不認識。
那么一個人的存在的意義是什么呢?小時候曾因為想不清這個問題而抑郁。所以我想去創造價值,獲得存在的意義。我選擇“上進”,去提升自己的創造價值的能力;選擇錄長視頻和寫教材,創造教育價值;選擇去寫讀博、工作、創業的總結,描述里面的糾結和困難,創造真實案例的價值;選擇去創業,團結很多人的力量去創造更大價值。
后記
去年跟宿華在斯坦福散步,他拍著我肩膀說:“跟我說句實話,你為什么想創業呀?”當時候不以為然:“就是想換個事情做做”。然后宿華笑了笑。
現在我懂了,因為他經歷了創業酸甜苦辣。如果今天再來回答這個問題,我會說:“我就是腦子抽了”。但也慶幸當時沒想到會那么不容易,所以一頭扎進來了。否則,大家看到的可能是「工作十年反思」。我覺得我今天寫的故事更有意思些。
致敬所有創業人。