成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全網都在扒的DeepSeek團隊,是清北應屆生撐起一片天

人工智能
量子位整理各種資料發現,DeepSeek團隊最大的特點就是年輕。應屆生、在讀生,特別是來自清北的應屆生在其中非常活躍。他們中的一些人,2024年一邊在DeepSeek搞研究,另一邊新鮮熱乎的博士學位論文剛評上獎。

DeepSeek-v3大模型橫空出世,以1/11算力訓練出超過Llama 3的開源模型,震撼了整個AI圈。

緊接著,“雷軍開千萬年薪挖DeepSeek研究員羅福莉”的傳聞,也使得人們把目光聚焦向DeepSeek的人才。

這下不只科技圈,全網都在好奇,連小紅書上都有人發帖詢問,這究竟是一只怎樣的團隊?

圖片

國際上,也有人把創始人梁文鋒的訪談翻譯成英語,還加了注釋,試圖從中尋找這家公司崛起的蛛絲馬跡。

圖片

量子位整理各種資料發現,DeepSeek團隊最大的特點就是年輕。

應屆生、在讀生,特別是來自清北的應屆生在其中非常活躍。

他們中的一些人,2024年一邊在DeepSeek搞研究,另一邊新鮮熱乎的博士學位論文剛評上獎。

圖片

圖片

他們中有的參與了從DeepSeek LLM v1到DeepSeek-v3的全程,有的只是實習了一段時間也做出重要成果。

為DeepSeek提出MLA新型注意力、GRPO強化學習對齊算法等關鍵創新的,幾乎都是年輕人。

DeepSeek核心成員揭秘

2024年5月發布的DeepSeek-V2,是致使這家大模型公司破圈的關鍵一環。

其中最重要的創新是提出了一種新型注意力,在Transformer架構的基礎上,用MLA(Multi-head Latent Attention)替代了傳統的多頭注意力,大幅減少了計算量和推理顯存。

圖片

在一眾貢獻者中,高華佐和曾旺丁為MLA架構做出了關鍵創新。

圖片

高華佐非常低調,目前只知道是北大物理系畢業。

另外,在“大模型創業六小強”之一階躍星辰的專利信息中也可以看到這個名字,暫不確定是否是同一人。

圖片

而曾旺丁來自北郵,研究生導師是北郵人工智能與網絡搜索教研中心主任張洪剛。

圖片

DeepSeek-V2工作中還涉及到了另一項關鍵成果——GRPO。

DeepSeek-V2發布前三個月,DeepSeek-Math問世,其中提出了GRPO(Group Relative Policy Optimization)。

GRPO是PPO的一種變體RL算法,放棄了critic模型,而是從群體得分中估算baseline,顯著減少了訓練資源的需求。

圖片

GRPO在圈內得到廣泛關注,另一家國內開源大模型阿里Qwen 2.5的技術報告中也透露用到了GRPO。

圖片

DeepSeekMath有三位核心作者是在DeepSeek實習期間完成的工作。

圖片

核心作者之一邵智宏是清華交互式人工智能(CoAI)課題組博士生,師從黃民烈教授。

圖片

他的研究領域包括自然語言處理、深度學習,特別對如何能構建一個穩健且可擴展的AI系統感興趣,這個AI系統能利用多樣化的技能整合異構信息,并能準確回答各種復雜的自然語言問題。

邵智宏之前還曾在微軟研究院工作過。

DeepSeekMath之后,他還參與了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等項目。

圖片

另一位核心作者朱琪豪是北大計算機學院軟件研究所2024屆博士畢業生,受熊英飛副教授和張路教授指導,研究方向為深度代碼學習。

據北大計算機學院官方介紹,朱琪豪曾發表CCF-A類論文16篇。在ASE和ESEC/FSE上分別獲得ACM SIGSOFT杰出論文獎一次,提名一次。一篇論文進入ESEC/FSE會議同年的引用前三名。

在DeepSeek團隊,朱琪豪還基于他的博士論文工作,主導開發了DeepSeek-Coder-V1。

其博士論文《語言定義感知的深度代碼學習技術及應用》也入選了2024CCF軟件工程專業委員會博士學位論文激勵計劃。

圖片

△圖源:北京大學計算機學院公眾號

還有一位核心作者同樣來自北大。

北大博士生Peiyi Wang,受北京大學計算語言學教育部重點實驗室穗志方教授指導。

圖片

除了DeepSeek-V2 MLA、DeepSeekMath GRPO這兩項關鍵破圈成果,值得一提的是,還有一些成員從v1就加入其中,一直到v3。

代表人物之一代達勱,2024年博士畢業于北京大學計算機學院計算語言所,導師同樣是穗志方教授。

圖片圖源:北京大學計算機學院公眾號

代達勱學術成果頗豐,曾獲EMNLP 2023最佳長論文獎、CCL 2021最佳中文論文獎,在各大頂會發表學術論文20篇+。

2024年中國中文信息學會“博士學位論文激勵計劃”共入選10篇來自中國大陸高校的博士畢業論文,其中就有他的《預訓練語言模型知識記憶的機理分析及能力增強關鍵技術研究》。

以及北大元培學院的王炳宣。

圖片

王炳宣來自山東煙臺,2017年進入北大。

碩士畢業加入DeepSeek,參與了從DeepSeek LLM v1開始的一系列重要工作。

清華這邊的代表人物還有趙成鋼。

趙成鋼此前是衡水中學信息學競賽班成員,CCF NOI2016銀牌得主。

之后趙成鋼進入清華,大二時成為清華學生超算團隊正式成員,三次獲得世界大學生超算競賽冠軍。

趙成鋼在DeepSeek擔任訓練/推理基礎架構工程師,有英偉達實習經歷。

圖片圖源:清華新聞網

DeepSeek是一支怎樣的團隊

這些鮮活的個體,足以引發人們的贊嘆。

但還不足以回答最初的問題,DeepSeek到底是一支怎樣的團隊?有怎樣的組織架構?

答案或許還要從創始人梁文鋒身上找。

早在2023年5月,DeepSeek剛剛宣布下場做大模型,還沒發布成果的時候,梁文鋒在接受36氪旗下「暗涌」采訪時透露過招人標準。

看能力,而不是看經驗。

我們的核心技術崗位,基本以應屆和畢業一兩年的人為主。

從后面一年多陸續發表的論文貢獻名單中也可以看出,確實如此,博士在讀、應屆以及畢業一兩年的成員占很大一部分。

即使是團隊leader級別也偏年輕化,以畢業4-6年的為主。

例如領導DeepSeek的后訓練團隊的吳俁,2019年北航博士畢業、在微軟MSRA參與過小冰和必應百科項目。

圖片

吳俁博士期間接受北航李舟軍教授和MSRA前副院長周明博士的聯合培養。

與他師出半個同門的是郭達雅,中山大學印鑒教授與MSRA周明博士聯合培養,2023年博士畢業。

2024年7月他加入DeepSeek,主要參與了一系列數學和代碼大模型的工作。

郭達雅上學期間還有一項事跡,本科期間在MSRA實習一年里發表兩篇頂會論文,他笑稱“在剛入學的第三天,就完成了中大博士生的畢業要求。”

圖片

除了團隊成員年輕化之外,DeepSeek在國內AI公司中突出的特點:非常重視模型算法和硬件工程的配合。

DeepSeek v3論文總共200位作者,并不都是負責AI算法或數據。

有這樣一批人從早期的DeepSeek LLM v1到v3一直都在參與,他們更多偏向算力的部分,負責優化硬件。

他們以DeepSeek AI的名義發表了論文《Fire-Flyer AI-HPC》,通過軟硬件協同設計降低訓練成本,解決傳統超算架構在AI訓練需求上的不足。

Fire-Flyer也就是幻方AI搭建的螢火2號萬卡集群,使用英偉達A100 GPU,卻做到相比英偉達官方的DGX-A100服務器有成本和能耗的優勢。

這支團隊中有的人在英偉達工作或實習過,有的來自同在杭州的阿里云,也有許多人從幻方AI借調又或干脆轉崗到DeepSeek,參與了每一項大模型工作。

而如此重視軟硬件協同的成果,就是以Llama 3 405B的1/11算力,訓練出性能更高的DeepSeek-v3了。

圖片

最后,我們還發現DeepSeek開源項目中有一個特別的存在,不是語言模型相關工作,卻是3D生成相關。

這項成果由清華博士生孫景翔在DeepSeek實習期間,與導師劉燁斌以及DeepSeek成員合作完成。

圖片

像這樣實習生在DeepSeek做出重要成果的還有中山大學邏輯學專業的辛華劍。

他在DeepSeek實習期間參與了用大模型證明數學定理的DeepSeek-Prover,現在在愛丁堡大學讀博士。

看過這些例子,再一次回到梁文鋒的訪談,或許更能理解這只團隊的運作結構。

  • 不做前置的崗位分工,而是自然分工
  • 每個人對于卡和人的調動是不設上限的,每個人可以隨時調用訓練集群,只要幾個人都有興趣就可以開始一個項目
  • 當一個idea顯示出潛力,也會自上而下地去調配資源。

這難免讓人想起AI界另一家不可忽視的力量,沒錯就是OpenAI。

同樣的用人不看經驗,本科生、輟學生只要有能力照樣招進來。

同樣的重用新人,應屆生與00后可以調動資源從無到有研究Sora。

同樣的面對潛力方向,整個公司從頂層開始設計布局和資源推動。

DeepSeek,可能是組織形態上最像OpenAI的一家中國AI公司了。

參考鏈接:[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA。

[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg。

[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw。

[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A。

[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ。

責任編輯:姜華 來源: 量子位
相關推薦

2012-10-30 15:50:02

應屆生團隊就業

2018-07-30 16:32:25

應屆生認知誤區

2009-06-17 09:52:33

思杰虛擬化云計算

2010-10-28 11:15:13

求職

2009-03-25 09:15:33

面試騰訊趨勢

2015-11-19 19:38:56

通達

2010-11-16 10:14:22

2018-07-12 15:31:51

互聯網薪資企業

2010-11-04 10:14:13

職場

2009-02-01 15:40:07

2015-10-26 14:29:54

服務器開發應屆生

2015-10-15 10:49:09

服務器開發虛擬化應屆生

2013-07-01 12:19:00

大學生IT博客大賽IT博客大賽博客大賽

2010-12-15 15:28:40

職場

2013-02-26 10:03:19

VMware FlinVMware Lab

2010-05-10 10:48:11

跳槽臥槽

2020-12-03 10:03:07

薪水跳槽華為

2017-10-31 11:39:42

2009-11-11 09:52:39

漢王科技招聘電紙書研發

2020-01-10 17:21:09

應屆生月薪薪資
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美黑人一区 | 91久久久精品国产一区二区蜜臀 | 国产精品一区二区三区在线 | 在线免费观看a级片 | 精品久久久久一区 | 日一区二区 | 免费在线观看一级毛片 | 婷婷色在线播放 | 久久中文字幕一区 | 亚洲欧美一区二区三区1000 | 伊人网在线综合 | 久久久久亚洲精品 | 国产精品视频一区二区三区四区国 | 日韩精品免费在线观看 | 日韩国产一区二区三区 | 91成人在线视频 | 国产黄色一级片 | 一级黄色短片 | 中文字幕第二区 | 欧美涩涩网 | 九九热免费观看 | 男女羞羞视频在线观看 | 久久久www成人免费无遮挡大片 | 国产成人精品免费视频大全最热 | 精品久久久久久亚洲精品 | 成人a视频 | 国产精品欧美一区喷水 | 亚洲免费视频在线观看 | 91精品国产高清一区二区三区 | 国产成人一区二区 | 国产精品久久久免费 | 日韩免费视频 | 亚洲美女av网站 | 免费视频成人国产精品网站 | 在线观看亚洲一区二区 | 日本黄色免费片 | 中文字幕在线网 | 欧美日韩一区二区三区不卡视频 | 久草青青草 | 一级a性色生活片久久毛片 午夜精品在线观看 | 欧美人成在线视频 |