成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

李沐大模型創業一年總結:張一鳴、宿華建議,寫信給黃仁勛,收支打平

人工智能
給小伙伴匯報一下LLM創業第一年的進展、糾結和反思

李沐大神在去年2月創業創辦了大模型公司BosonAI,就在14日,他在知乎上發表了創業一年后的反思,這里為諸位奉上原文(《創業一年,人間三年》),希望能給GenAI浪潮中的你我一些啟發。

在Amazon呆到第五年的時候就想著創業了,但被疫情耽擱了。到第7年半的時候,覺得太癢了,就提了離職。現在想來,如果有什么事這一輩子總要試下的,就蹭早。因為真開始后會發現有太多新東西要學,總感嘆為啥沒能早點開始。

名字:BosonAI的來源

創業前做了一系列用Gluon命名的項目。在量子物理里,Gluon是把夸克綁在一起的一種玻色子,象征這個項目一開始是Amazon和Microsoft的聯合項目。當時項目經理拍拍腦袋名字就出來了,但取名對程序員來說很困難,我們每天都在糾結各種文件名和變量名。最后新公司干脆就用玻色子(Boson)來命名了。希望大家能get到“Boson和費米子組成了世界”這個梗時會會心一笑。但沒料到很多人會看成Boston。

“我來波士頓了,找個時間碰碰?” “哈?可我在灣區呀 ”

融資:簽字前一天領投方跑路

22年年底的時候想到兩個用大語言模型(LLM)做生產力工具的想法。碰巧遇到張一鳴,就向他請教。討論之后他反問:為什么不做LLM本身呢?我的下意識退縮:我們之前在Amazon的團隊做了好幾年這個,得上萬張卡,和blabla這么一大堆困難。一鳴呵呵表示:這些都是短期困難,眼光得看長遠點。

我的優點是聽勸,真就去做LLM了。湊齊了數據、預訓練、后訓練、和架構各方向負責人的創始團隊,就去融資了。運氣不錯,很快拿到了種子投資。但錢還不夠買卡,得去拿第二輪。這一輪領頭是一家非常大的機構,做了幾個月文檔、商討條款。但在簽字前一天,領頭說不投了,直接導致了跟投的幾家退出。很感激剩下的投資方,還是做完了這一輪,拿到了做LLM的入場券。

今天反思的話,當時蹭著資本市場熱情還在,其實可以繼續融資,說不定也跟其他友商一樣,現在十億現金在手。當時擔心融資太多,會不好退出,或者被架到天上去了。現在想來,創業就是想逆天改命,想什么退路呢?

機器:第一批吃螃蟹的人

有了錢后就去買GPU。問各個供應商,統一回復是H100交貨得一年以后了。靈機一動,直接給老黃寫郵件。老黃秒回說他來看下。一個小時后超微的CEO就打電話過來了。多付了些錢,插了個隊,20天后拿到了機器。很榮幸早早的吃到了螃蟹。

螃蟹吃到懷疑人生,遇到了各種匪夷所思的bug。例如GPU供電不足導致不穩定,后來靠超微工程師修改bios代碼打上補丁;例如光纖的切開角度不對,導致通訊不穩定;例如Nvidia的推薦網絡布局不是最優,我們重新做一個方案,后來Nvidia自己也采用了這個方案。至今我都不理解,我們就買了不到一千張卡,算小買家吧。但我們遇到的這些問題,難道大買家沒遇到嗎,為啥需要我們的debug?

同時我們還租了同樣多的H100,一樣是各種bug,GPU每天都出問題,甚至懷疑是不是這個云上就我們一個吃螃蟹的。后來看到Llama 3的技術報告說他們改用H100后,訓練一次模型被打斷幾百次,對字里行間的痛苦,很是共情。

如果對比自建和租卡的話,租三年成本和自建成本差不多。租卡的好處是省心。自建的好處有兩個。一是三年后如果Nvidia技術還遙遙領先,那么它能控制價格使得GPU仍然保值 。另一個是自建的數據存儲成本低。存儲需要跟GPU比較近,不管是大云還是小GPU云,存儲價格都高。但一次模型訓練可以用幾TB空間存checkpoint,訓練數據存儲是10PB起跳。如果用AWS S3的話,10PB一年兩百萬。這錢用來自建的話,可以上100PB。

商業:感恩客戶,第一年收支平衡

非常幸運的,我們第一年收入和支出是打平的。我們支出主要在人力和算力上,感謝Openai的財力和Nvidia的遙遙領先,這兩項支出都挺大的 。我們的收入來源是給大客戶做定制的模型。很早就上LLM的公司大都是因為CEO非常有決策力,他們沒被高昂的算力和人力成本嚇到,果斷的去推動內部團隊配合嘗試新技術。非常感恩客戶給了我們喘氣的時間,不然這個幾個月我又是奔波在各個投資人那里。

接下來應該會有更多公司去嘗試使用LLM,不論是自己產品的升級,還是降本增效。原因是一方面技術成本在降低,另一方面行業領先者(例如我們客戶)會陸續放出基于LLM的產品出來,把行業卷了起來。

我們也在關注LLM在toC上的落地。上一波頂流例如c.ai和perplexity還在找商業模式,但也有小十來家LLM原生應用收入還不錯。我們給一家做角色扮演的創業公司提供了模型,他們主打深度的玩家,打平了收入和支出,也是厲害的。模型能力還在進化,更多模態(語音、音樂、圖片、視頻)在融合,相信接下來還會有更有想象力的應用出現。

整體來說行業和資本還是急躁的。今年好幾家成立一年多但融資上十億的公司選擇退出。從技術到產品是一個很長的過程,花2、3年實屬正常。算上用戶的需求的涌現,可能得花更長時間。我們專注當下在迷霧中探路,對未來保持樂觀。

技術:LLM認知的四個階段

對LLM的認知經歷了四個階段。第一階段是Bert到GPT3,感受是新架構,大數據,這個可以搞。我們在Amazon的時候也是第一時間去做了大規模的訓練和在產品上的落地。

第二階段是剛創業的時候GPT4了放出來,大受震撼。大半原因來自技術不公開了。根據小道消息估算一次模型訓練一個億,標數據成本幾千萬。很多投資人問我復現GPT4成本得多少,我說3-4億要把。后來他們中一家真一把投了大幾億出去。

第三階段是創業的第一個半年。我們做不動GPT4,那就想著從具體的問題出發吧。于是開始找客戶,有游戲的、教育的、銷售的、金融的、保險的。針對具體的需求去訓練模型。一開始市面上沒有好的開源模型,我們就從頭訓練。后來很多很好的模型出來了,降低了我們成本。然后針對業務場景設計評估方法,標數據,去看模型哪些地方不行,針對性提升。

23年年底時,驚喜發現我們的Photon(Boson的一種)系列模型在客戶應用上的效果都打贏GPT4了。定制模型的好處是推理成本是調用API的1/10。雖然今天API已經便宜很多,但我們自己技術也同樣在進步,仍然是1/10成本。另外,延時等都可以更好的控制。這個階段的認知是對于具體應用,我們是可以打贏市面最好模型的。

第四階段是創業的第二個半年。雖然客戶拿到了合同里要的模型,但還不是他們理想中的東西,因為GPT4還遠不夠。年初時發現針對單一應用訓練,模型很難再次飛躍。回過頭想,如果AGI是達到普通人類水平,客戶要的是專業人士的水平。游戲要專業策劃和專業演員、教育要金牌老師、銷售要金牌銷售、金融保險要高級分析師。這都是AGI加上行業專業能力。雖然當時我們內心對AGI充滿敬畏,但感覺是避不開的。

年初我們設計了Higgs(上帝粒子,Boson的一種)系列模型。主打通用能力緊跟最好的模型,但在某個能力上突出。我們挑選的能力是角色扮演:扮演虛擬角色、扮演老師、扮演銷售、扮演分析師等等。24年年中的時候迭代到第二代,在測試通用能力的Arena-Hard和AlpacaEval 2.0上,V2跟最好的模型打得有來有回,在測試知識的MMLU-Pro上也沒差很遠。

Higgs-V2是基于Llama3 base,然后做了完整的post-training。我們沒資源像Meta那樣花大錢標注數據,所以V2比Llama3 Instruct好,原因應該還是主要來自算法的創新。

然后我們做了個評估角色扮演的評測集,包含按照人設扮演,和按照場景扮演。怪不好意思是自己的模型在自己的榜單上拿了第一。但模型訓練中是沒有碰評測用的數據。因為這個評測集是想自用,希望能真實反映模型能力,所以要避免模型overfit數據集。但做評測集的同學想寫技術報告,所以干脆放出來了。有意思的是,按角色扮演的測試樣本來自c.ai,但他們家的模型能力是墊底的。

第四階段的認知是,好的垂直模型通用能力也不能弱,例如reasoning,instruction following這些能力垂直上也是需要的。長遠來看,通用和垂直模型都得朝著AGI去。只是垂直模型可以稍微偏科一點,專業課高分,通用課還行,所以研發成本稍微低一點,研發方式也會不太一樣。

那第五階段認識呢?現在仍在進行中,希望能很快分享。

愿景:人類陪伴

說來慚愧,我們蒙頭做技術,給客戶做定制,然后再慢慢想我們自己追求什么愿景。我們去看客戶想要什么、我們自己想要什么、未來可能需要什么。我自己的話,多年前我憧憬有個機器人保姆能幫我帶娃、陪他們,因為干這個我覺得很難,而且也不太理解娃當前的認知和想法。我希望工作上有個非常厲害的虛擬助手能跟我一起發明新的東西。等我老了也想有很有意思的機器人陪著。我對于未來的預測是,生產工具越來越發達,一個人完成之前一個團隊才能完成的事情,導致人類更加個體獨立,大家都忙著追求自己的事情,從而更加孤獨。

這些綜合在一起,我們把愿景定成了“人類陪伴的智能體”。一個情商很高的,智商在線的智能體。算換成現實中的人的話,應該會是一個專業團隊。例如你想讓它陪你玩,那它是專業策劃+演員。陪你運動,那么鼓勵師+專業運動教練。陪你學習,那么能把你不懂的講懂。模型的好處是,它能做長期的陪伴,真的了解你。而且可以“真心為你”。

不過目前技術離愿景還挺遙遠。當下技術就能陪著聊聊。很多場景下聊得也不是那么好,內容匱乏,智商情商有時都不在線。都是當下要解決的問題。如果有小伙伴做這一塊的海外應用,歡迎聯系我們。

團隊:有挑戰的事情得靠團隊

創業之后才真正覺得團隊的重要性。在大廠的時候,覺得自己是個螺絲釘,團隊成員是螺絲,甚至團隊也是個螺絲釘。但創業團隊就是一輛車。車小點,但能跑,能載重,轉彎靈活,各個角落都能去。公司成立不久的時候,米哈游老蔡來看了眼,看見所有人在一間房子里,他感慨說小團隊真好。

不方便的地方當然也是有的,時刻要看有沒有油,不好走的路得小心別把車震散架了。每個成員都很重要,沒有冗余,一個人不給力,就可能是一個輪胎沒氣。人也寶貴,走一個人就可能少一個輪胎。

以前我選項目會選自己能主導開發的。但這也意味著問題不會超出我能力太多。創業選了個很大的問題去做,只能全靠團隊了。別看本文里用了大量的“我”,其實工作都是團隊做的。沒了團隊,我可能得轉行去賣課了(此處不需要掌聲)。

個人追求:名還是利?

到目前為止我都靠跟著內心的聲音做決定,工作后再去讀博、去做視頻、去創業。創業需要強烈動機的支撐,才能克服層出不窮的困難。這需要對自己的動機做更深入的分析。

動機要么來自欲望,要么來自恐懼。十年前我可能更熱衷名利,但到了現在的年紀,覺得金錢的邊際效用已經不高,名聲帶來的情緒價值也已經很小。我深層的動機來自對生命可能沒有意義的恐懼。先不說宇宙的浩瀚,就是在人類的歷史長河,一個人也只是一粒沙。意外的到來,迅速的消失。地球上生活過一千億人,絕大部分人不會在歷史上留下痕跡。我家家譜上那上千個人名,我幾乎都不認識。

那么一個人的存在的意義是什么呢?小時候曾因為想不清這個問題而抑郁。所以我想去創造價值,獲得存在的意義。我選擇“上進”,去提升自己的創造價值的能力;選擇錄長視頻和寫教材,創造教育價值;選擇去寫讀博、工作、創業的總結,描述里面的糾結和困難,創造真實案例的價值;選擇去創業,團結很多人的力量去創造更大價值。

后記

去年跟宿華在斯坦福散步,他拍著我肩膀說:“跟我說句實話,你為什么想創業呀?”當時候不以為然:“就是想換個事情做做”。然后宿華笑了笑。

現在我懂了,因為他經歷了創業酸甜苦辣。如果今天再來回答這個問題,我會說:“我就是腦子抽了”。但也慶幸當時沒想到會那么不容易,所以一頭扎進來了。否則,大家看到的可能是「工作十年反思」。我覺得我今天寫的故事更有意思些。

致敬所有創業人。

責任編輯:火鳳凰 來源: 知乎
相關推薦

2020-09-21 08:35:32

張一鳴產品技術

2023-08-09 17:47:40

黃仁勛計算機NVIDIA

2009-04-10 08:26:48

芯片廠商薪酬黃仁勛

2013-04-03 10:17:15

Intel黃仁勛CEO

2024-08-06 16:15:18

2024-07-03 12:15:01

2025-01-09 12:21:31

2023-03-22 08:14:03

英偉達人工智能

2023-03-07 18:37:20

ChatGPTAI

2023-03-08 10:07:20

2016-10-28 11:29:26

NVIDIA

2025-02-06 16:44:47

2021-03-07 16:32:57

張一鳴王興互聯網

2025-04-16 09:41:46

2024-06-03 10:58:38

2023-09-08 13:12:00

數據訓練

2017-09-28 11:29:22

NVIDIA芯片

2023-11-02 13:36:00

AI模型

2023-05-31 07:30:09

國產顯卡RTX 3060
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一级免费看 | 国产一区二区三区视频在线观看 | 成人免费久久 | 日韩欧美三区 | 免费的黄色片子 | 久久久久国产精品免费免费搜索 | 狠狠插狠狠操 | 一级视频在线免费观看 | 亚洲精品国产成人 | 精品久久精品 | 亚洲精品久久久一区二区三区 | 九九在线| 久久国产一区 | 久久99精品久久久久久国产越南 | 日本激情视频在线播放 | 人妖videosex高潮另类 | 免费一看一级毛片 | 91在线电影 | 精品区 | 国产精品一区二区不卡 | 日日噜噜噜夜夜爽爽狠狠视频97 | 在线视频日韩精品 | 91在线精品一区二区 | 国产精品高清一区二区三区 | 欧美国产日韩成人 | 欧美一区免费 | 少妇特黄a一区二区三区88av | 视频精品一区二区三区 | 午夜视频一区 | 亚洲精品在线视频 | 亚洲欧美激情国产综合久久久 | av国产精品 | 俺去俺来也www色官网cms | 久久99网站| 粉嫩一区二区三区国产精品 | 日本高清视频在线播放 | 欧美激情在线播放 | 99精品国产一区二区青青牛奶 | 99精品久久99久久久久 | 激情欧美一区二区三区 | 欧美一区精品 |