成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一個「always」站在大模型技術C位的傳奇男子

人工智能 新聞
語言模型將以各種方式越來越多地融入我們的生活,并且將在全球算力中占主導地位。

怎么老是你???(How old are you)

這是最近網友不斷對著Transformer八子之一的Noam Shazeer(為方便閱讀,我們稱他為沙哥)發出的靈魂疑問。

尤其是最近Meta FAIR研究員朱澤園分享了他們《Physics of Language Models》項目的系列新進展后,有網友發現,其中提到的3-token因果卷積相關內容,沙哥等又早在三年前就有相關研究。

是的,“又”。

因為你只要梳理一遍他的工作履歷,就不難發現,AI界大大小小的突破背后,總是能發現他的名字。

“不是搞個人崇拜,但為什么總是Noam Shazeer?”

△網友稱右下角沙哥圖由GPT-4o生成

朱澤園也自己也站出來表示,沙哥成果超前:

我也覺得Shazeer可能是個時間旅行者。

我原本不相信他們的gated MLP(在寫第3.3部分的時候,因為門控多層感知機讓訓練不穩定),但現在我信服了(在添加了Canon層之后,我們在第4.1部分對比了多層感知機和門控多層感知機)。

正式認識一下,沙哥是誰?

他是Transformer八位作者中被公認是“貢獻最大”的那位,也是半路跑去創業Character.AI,又被谷歌“買回來”那位。

他并非OpenAI的明星科學家,也不似DeepMind創始人般頻繁曝光,但若細察當今LLM的核心技術,其奠基性貢獻隱然貫穿始終。

從引用量超17萬次的《Attention is all you need》,到將MoE引入LLM的谷歌早期研究,再到Adafactor算法、多查詢注意力、用于Transformer的門控線性層(GLU)……

有人感慨,其實我們現在就是生活在“Noam Shazeer時代”。

因為如今主流模型架構的演變,就是在其奠定的基礎上持續推進。

所以,他都做了什么?

Attention Is All You Need是其一

在AI領域,曇花一現的創新者眾多,但能持續定義技術范式者鳳毛麟角。

沙哥恰恰屬于后者,他的工作不僅奠定了當今大語言模型的基礎,還頻頻在技術瓶頸出現時提供關鍵突破。

其影響力最大的一項工作當屬2017年的《Attention Is All You Need》。

2017年的一天,已加入谷歌數年的沙哥在辦公樓走廊里偶然聽到Lukasz Kaiser、Niki Parmar、Ashish Vaswani等幾人的對話。

他們正興奮地談論如何使用自注意力,沙哥當時就被吸引了,他覺得這是一群有趣的聰明人在做有前途的工作。

而后,沙哥被說服加入了這個已有七人的團隊,成為第八位成員,也是最后一位。

但這個最后到場的人,卻在短短幾周內根據自己的想法,重新編寫了整個項目代碼,把系統提升到了新的水平,使得Transformer項目“拉開了沖刺的序幕”。

沙哥實力超群卻不自知,當看到論文草稿中自己被列為第一作者時,他還有些驚訝。

在討論一番后,八位作者最后決定打破學術界一作二作通訊作的規則,隨機排序,并給每個人名字后都打上星號,腳注標明都是平等貢獻者。

但大家都知道,沙哥加入發揮了舉足輕重的作用。后來《Attention Is All You Need》這篇論文引起轟動。

而沙哥的恐怖之處,在于他似乎總能比行業提前數年看到技術趨勢,不只是Transformer。

在《Attention Is All You Need》前后,沙哥還作為一作同三巨頭之一、圖靈獎得主Geoffrey Hinton以及谷歌元老級人物、第20號員工Jeff Dean等合作發表了另一篇具有代表性的工作——

《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》。

早在那時就為現今大火的新范式Mixture of Experts(MoE)埋下了伏筆。

這項工作創造性地引入了Sparsely-Gated Mixture-of-Experts,將MoE應用于語言建模和機器翻譯任務,提出了一種新架構,具有1370億參數的MoE被以卷積方式應用于堆疊的LSTM層之間。

規模放在今天也是超大杯的存在。

雖然MoE的思路早在上世紀90年代初就已經被提出,以Michael I. Jordan、Geoffrey Hinton等的《Adaptive Mixtures of Local Experts》為代表,但沙哥參與的這項研究通過動態激活子網絡,讓模型突破更大規模參數成為可能,啟發了后續諸多基于MoE的模型改進和創新。

且沙哥對MoE的探索遠不止于此。

2020年,谷歌《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中提出GShard。

它提供了一種優雅的方式,只需對現有模型代碼做很小改動,就能表達各種并行計算模式。

GShard通過自動分片技術,將帶有Sparsely-Gated Mixture-of-Experts的多語言神經機器翻譯Transformer模型擴展到超6000億參數規模。

次年,Switch Transformers這項工作,結合專家并行、模型并行和數據并行,簡化MoE路由算法,提出大型Switch Transformer模型,參數達到1.6萬億。

不僅推進了語言模型的規模,還在當時實現了比T5-XXL模型快4倍的速度。

模型規模的擴大一方面為自然語言處理開辟了新的領域,另一方面也面臨訓練過程中的不穩定性以及微調階段質量不確定性的阻礙。

2022年,針對該問題的研究《ST-MoE: Designing Stable and Transferable Sparse Expert Models》問世了。

該項目將一個ST-MoE-32B稀疏模型的參數規模擴展到了2690億,其計算成本與一個擁有320億參數的密集型encoder-decoder Transformer模型差不多。

這林林總總一系列關鍵性進展的作者名單中,總少不了沙哥。

時間證明沙哥的預判是對的。

如今,GPT-4 、DeepSeek系列、阿里Qwen3系列……主流將MoE與Transformer架構的結合,無一不是在此系列工作的思想上發展而來。

說沙哥踩在時代的命門上,不光靠這些。

為解決大規模模型的訓練內存受限的問題,沙哥還曾聯合提出了Adafactor優化器,早期谷歌大模型如PaLM都離不開它。

作用于大模型推理加速的Multi Query Attention(MQA)也是出自他的手筆。

MQA最早于2019年沙哥的獨作論文《Fast Transformer Decoding: One Write-Head is All You Need》中被提出,旨在解決Transformer增量推理階段效率低下的問題。

另外,他還提出了被廣泛應用于各種Transformer模型中的Gated Linear Layer(GLU)。

GLU為Transformer架構帶來了顯著改進,通過門控機制,GLU可以根據輸入動態地調整信息的傳遞,從而更好地捕捉數據中的復雜模式和依賴關系,提升模型的表達能力。

這種動態調整能力更有助于模型處理長序列數據,有效利用上下文信息。

用網友的話來說,沙哥參與的研究往往都是簡單粗暴,詳細介紹了技術細節,當時可能大家不能完全理解其中的奧妙,但之后就會發現很好用。

3歲自學算術,1994年IMO滿分

沙哥的技術嗅覺,源自其近乎傳奇的成長軌跡。

1974年,沙哥出生于美國,3歲就開始自學算術。

1994年,他參加了IMO(國際數學奧林匹克競賽),在經歷長達九小時的考試后,取得了滿分,這是該項賽事35年歷史上首次有學生拿到滿分(同年還有另外5名學生拿到滿分)。

同年,沙哥進入杜克大學學習數學和計算機科學。

在校期間,沙哥作為杜克大學代表隊的一員,曾在多項數學競賽中獲獎。譬如1994年、1996年,分別在普特南數學競賽中排名第6名、第10名。

本科畢業后,沙哥前往UC伯克利攻讀研究生,但并未完成學業(他的領英上如今也只寫著本科教育經歷)。

而后千禧年到來,沙哥加入谷歌,成為第200號員工,一路從軟件工程師做到首席軟件工程師。

2001年,其參與改進的谷歌搜索拼寫糾正功能上線,這是他早期的一項重要成就。

此后,他還開發了谷歌廣告系統PHIL,該系統能夠決定在特定頁面上展示哪些廣告聯盟廣告,同時避免出現不適當或不相關的內容,成為谷歌廣告聯盟系統的核心。

2005年,他成為谷歌廣告文本排名團隊的技術主管;2006年,他創建了谷歌第一個垃圾郵件檢測的機器學習系統;2008年,他開發了一種用于對新聞文章進行排名的機器學習系統……

不一一點出來了,但說他在谷歌期間碩果累累,絕不為過。

雖然2009年到2012年期間他短暫離開過谷歌,但截至2021年去創業Character.AI,他已經在谷歌待了18年。

2012年回到谷歌加入Google Brain后,沙哥更是火力全開——

他把自己的研究方向轉向深度學習與神經網絡研究,2016年推動神經機器翻譯(NMT)的落地,顯著提升翻譯質量;2017年就有了《Attention Is All You Need》。

而去年8月,沙哥揮別創業賽道,重返谷歌擔任工程副總裁、Gemini聯合技術主管,到現在又快在谷歌干滿一年了。

真·谷歌人,谷歌魂。

這話真不假,因為沙哥連創業旅途,也是和谷歌同事一起擼起袖子干的。

有多么戲劇呢?

時間回到2021年。那時候,由于谷歌未公開發布他與同事Daniel De Freitas開發的聊天機器人Meena及其后續項目LaMDA,沙哥與De Freitas扭頭就和老東家say bye bye了~

他倆商量了一通,決定進一步研究更加個性化的超級智能,于是世界上多了一家叫Character.AI的公司。

經過兩年多發展,Character.AI以“各式各樣的AI角色”攢了2000多萬用戶。

2023年3月,Character.AI以10億美元估值完成1.5億美元融資,a16z領投,GitHub前CEO Nat Friedman、Elad Gil、A Capital和SV Angel參投。

不過在此之后,這家明星AI獨角獸開始陷入困境,新一輪融資遲遲難以推進。去年7月4日,Character.AI被曝考慮賣給谷歌和Meta。

8月,一切塵埃落定,谷歌以27億美元的價格將Character.AI技術納入麾下,并邀請沙哥回歸,負責聯合領導谷歌的Gemini項目。

One More Thing

一個可能不為人所知的故事,在OpenAI的早期階段,沙哥是顧問之一。

他曾極力推薦奧特曼來擔任OpenAI的CEO。

以及另一件值得一提的事——

2020年,谷歌Meena聊天機器人發布后,沙哥發了一封名為“Meena吞噬世界”的內部信。

其中的關鍵結論是:

語言模型將以各種方式越來越多地融入我們的生活,并且將在全球算力中占主導地位。

責任編輯:張燕妮 來源: 量子位
相關推薦

2012-02-16 09:48:06

程序員

2009-08-18 17:19:33

C#事件模型

2018-08-14 13:35:40

2025-02-26 07:00:00

Go 語言Ollama 模型dubbogo

2024-08-12 15:55:51

2009-04-22 15:16:30

2025-06-03 06:30:05

2013-10-09 10:04:20

LinuxGit

2013-09-03 16:21:07

物聯網IoT數據中心

2014-10-08 11:26:14

2024-05-29 13:55:25

2009-12-16 09:38:36

2011-10-18 13:43:31

福布斯信息技術企業計算

2023-11-08 13:21:16

數據訓練

2024-05-06 11:37:20

自動駕駛3D

2009-07-30 18:18:27

C#時間計算

2023-06-29 17:46:31

模型谷歌
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产视频在线一区二区 | 亚洲综合视频 | 一区二区三区四区在线视频 | 亚洲精品在线免费观看视频 | 你懂的在线视频播放 | 成人在线免费观看 | 欧美在线观看一区二区 | 毛片免费观看 | 国产激情精品视频 | www.夜夜骑| 在线欧美小视频 | 国产黄色免费网站 | 国产精品日韩一区二区 | 日韩av电影在线观看 | 精品国产一区二区三区久久久蜜月 | 午夜羞羞 | 亚洲一区二区三区久久 | 在线观看你懂的网站 | 国产免费一区二区 | 亚洲欧美一区二区三区情侣bbw | 久久免费香蕉视频 | 99精品国产一区二区三区 | 亚洲国产成人精品久久 | 欧美三区视频 | 欧美一级艳情片免费观看 | 日韩精品一区在线观看 | 午夜看电影在线观看 | 精品日韩一区 | 久热中文字幕 | 亚洲激情一区二区 | 91操操操 | 日日操av | 美女国产精品 | 一区二区视频在线 | 国产精久久久久久久 | 国产精品久久久久一区二区三区 | 国产精品无码久久久久 | 奇米超碰 | 五月天天色 | 天天射网站 | 国产人成精品一区二区三 |