何愷明兼職加入 DeepMind!要在基礎研究組搞大事?
剛剛,MIT教授、CV大神,成為 Google DeepMind 的杰出科學家。不過,這次是以 part-time(兼職) 身份加入。
據網友爆料,他即將參與基礎研究組的工作。
圖片
何凱愷是計算機視覺領域的超級明星,別人的榮譽都是在某某大廠工作,拿過什么大獎,而何愷明的榮譽是best,best,best ...... 例如2016 CVPR 最佳論文“Deep Residual Learning for Image Recognition”以及2017ICCV最佳論文“Mask R-CNN”。
圖片
目前,何愷明的論文引用數超過71萬,是MIT被引用次數最高的學者。
他也一直沒閑著,去年,他與 DeepMind 的黎天鴻團隊提出 Fractal Generative Models,把分形遞歸塞進神經網絡,讓逐像素生成 8K 圖像不再卡死 GPU;今年又合寫 Fluid,用連續 token 解決視覺自回歸“越放大越糊”的老毛病。實驗室里,他用 Representation Regularization 給生成模型“扎緊腰帶”,在相同算力下多擠出 2%-3% 質量分。
何愷明:多次按響深度學習門鈴
“何愷明把神經網絡做深了,谷歌把神經網絡的入口拉大了,又深又大,才成為今天的大模型。”
他2009年的那篇CVPR最佳論文,是CVPR整個25年歷史上亞洲的第一篇最佳論文。
他的第一項工作是在微軟亞洲研究院發布的有關殘差網絡(ResNet)的論文。在2015年之前,深度學習最多只能訓練20層,而CNN(卷積神經網絡)模型ResNet在網絡的每一層引入了一個直連通道,從而解決了深度網絡的梯度傳遞問題,獲得了2016年CVPR的最佳論文獎,是計算機視覺歷史上被引用最多的論文。
“在ResNet之后就可以有效地訓練超過百層的深度神經網絡,把網絡打得非常深。”湯曉鷗說,“在大模型時代,以Transformer為核心的大模型,包括GPT系列,也普遍采用了ResNet結構,以支撐上百層的Transformer的堆疊。
尤其是何愷明在Facebook期間發明的Mask R-CNN算法,首次把基于掩碼的自編碼思想用于視覺領域的非監督學習,開啟了計算機視覺領域自監督學習的大門。
關于何愷明
他是廣東高考滿分狀元,全國物理競賽一等獎獲得者,清華保送生。但真正讓他從“天才少年”躍升為“AI 大神”的,是從清華轉向基礎科學后的一連串技術里程碑。
本科階段,他放棄保送的機械專業,加入清華基礎科學班。2007 年進入微軟亞洲研究院實習,因對圖形圖像課程產生興趣,加入視覺計算組——起初連發論文都難,直到 2009 年憑“暗通道去霧”首獲 CVPR 最佳論文。
這只是序章。他后來主導的 ResNet、Mask R-CNN、RetinaNet、MoCo 等模型,先后斬獲多個 CV 頂會大獎,把計算機視覺推進到了深度學習、實例分割、單階段檢測器、自監督學習的多個重要階段。每一次發聲,都代表了方向性轉變。
從微軟亞洲研究院,到 Facebook FAIR,再到 MIT,再到 Google DeepMind,何愷明每一次轉換角色,都不是為名或為利,而是為了研究自由度和落地可能性之間的平衡。
復盤何愷明的研究路線,你會發現它極具“方向性判斷”能力。不同于許多研究員跟隨熱點話題“追著發”,他更像在一個個節點精準切入,并留下長久影響。
- 2009 暗通道去霧:首開圖像復原新思路
- 2015 ResNet:解決深層網絡訓練瓶頸,奠定現代模型結構
- 2017 Mask R-CNN + RetinaNet:目標檢測從 Two-stage 到 One-stage
- 2019-2020 MoCo:拉開視覺領域自監督學習序幕
- 2023-2024 Fluid + Fractal:攻堅視覺生成模型結構表達
這些研究不僅篇篇高引(ResNet 單篇已超 28 萬次),而且高度可遷移,從圖片識別延展到視頻理解、材料建模、蛋白質設計等多個交叉學科。
他的“科研直覺”已被反復驗證:別人還在研究“把杯子放穩不碎”的方法時,他已經在想,“如果 AI 真理解了杯子本身的構造呢?”
MIT 的自由探索給了他理論跳躍的空間,希望DeepMind 的工程團隊和算力基礎,能讓這些跳躍有機會落地成形。