蘋果豪賭!神秘AI項目曝光,寧死不用英偉達?自研芯片全家桶都要AI了
最近一輪AI之戰,OpenAI、谷歌、微軟都交卷了,現在,全世界的目光齊刷刷看向蘋果。
全球開發者大會,就在6月上旬。選擇這個時機發布新產品,蘋果勇氣可嘉。
被一眾競品搶盡風頭后,蘋果得拿出什么重大突破來,才能證明自己在AI領域還能讓人興奮?
看起來,蘋果可走的路數不多了,所以外媒記者才意味深長地暗示:這次WWDC的主題應該是「迎頭趕上」,而非「超越」。
畢竟,在LLM上,繼ChatGPT和Gemini之后,蘋果早已失去了先發優勢;微軟面向開發者的CoPilot生態,也是XCode短時間內無法企及的。
和英偉達的舊仇,也讓蘋果孤注一擲發展自研芯片,然而比起英偉達GPU,M2系列在成本和實際應用性能上都有些差強人意。
硬氣的蘋果,無疑在進行一場豪賭。
蘋果,拼命追趕
彭博社記者Mark Gurman發出了一篇爆料文,預測了蘋果即將在開發者大會上祭出的殺手锏。
Gurman分析道,比較引人矚目的消息,就是蘋果和OpenAI CEO Sam Altman的合作了。
在WWDC上,雙方的合作伙伴關系很可能會昭告天下。
這就有點微妙了。一方面,這一舉動,相當于讓蘋果向公眾承認了,自己無法在AI最熱門的領域競爭,通過「曲線救國」,它倒是可以擁有最先進的聊天機器人,從而硬剛一波使用Gemini的三星。
另一方面,最近Altman的名聲不大好,OpenAI的公司結構看起來也不太穩定。
因此,蘋果根本無法對OpenAI作為iOS新功能的單一供應商感到放心。(這就是為什么它還在和谷歌達成協議,把Gemini也作為備選)
根據預測,蘋果很有可能著重發力軟件方面,比如推出iOS 18、iPadOS 18、macOS 15等操作系統的更新。
iPad已經用上了最新的M4芯片,也許它會繼續被集成到Mac Pro和MacBook Pro中?
對于外界最關注的AI功能,蘋果將「另辟蹊徑」,推出「Project Greymatter」,重點關注普通人在日常生活中可以使用的工具,滿足用戶對于「實用」的需求。
一系列新功能將分布在手機、平板和PC端,包括——
- 更靈活的主屏幕布局、自定義app圖標顏色
- 語音備忘錄轉文字
- AI照片編輯
- 隨短信內容變化的自定義表情符號
- Spotlight搜索更快速、準確
- Safari搜索改進
- 郵件和短信的自動回復建議
如果僅是這些功能,那就不免令人有些失望,畢竟,這些功能并不是革命性的,也很難吸引眼球,絕大部分都已經在谷歌或Meta的相關應用中存在。
OpenAI的GPT-4o語音最近雖然飽受爭議,但讓我們看到了語音助手可以擬人化、智能化到什么程度。
于是,全網期待的目光落在了被傳和OpenAI合作的蘋果上。作為最流行的語音助手之一,Siri有望在功能和聲音上升級嗎?
也有預測稱,ChatGPT可能被植入到iOS18中作為聊天機器人插件;同時蘋果也在「兩手準備」,和谷歌洽談Gemini的交易。
蘋果的AI戰略:數據中心、設備、云計算
與此同時,SemiAnalysis的著名爆料研究員Dylan Patel和Myron Xie一起,剛剛發了一篇文章,全面分析了蘋果的AI戰略。
在這篇文章中,兩位記者提出了一個困擾著許多人的問題:蘋果在AI領域到底在做什么?
要知道,現在全球都在瘋狂搶購英偉達的GPU,然而蘋果卻沒有參與這一「囤貨」大潮。調查顯示,蘋果對GPU的采購微乎其微,連英偉達的十大客戶都不是。
在WWDC大會前夕,各種傳言滿天飛。
兩位記者對目前的各路消息來了個匯總。
加大M系列處理器產量,還要做自己的AI服務器
首先,有多個消息來源稱,蘋果今年將加大M系列處理器的產量,甚至達到創紀錄的水平。
所謂M系列處理器,主要指的是M2 Ultra,它由2個片上M2 Max拼接而成,被蘋果稱之為「UltraFusion」。(有趣的是,據悉蘋果的M3 Ultra被取消了。)
Ultrafusion指的是使用本地硅互連技術將兩個M2 Max芯片連接在一起。在軟件層面上,這兩個芯片被看作一個單一的芯片。M2 Ultra利用了臺積電的InFO-LSI封裝技術。這與臺積電的CoWoS-L概念相似,英偉達的Blackwell和未來的加速器也將采用這種技術。要說蘋果和英偉達兩種方法之間的唯一區別,就是蘋果的InFO是芯片先行工藝流程, 而英偉達的CoWoS-L是芯片后行工藝流程,另外它們使用的是不同類型的內存
但是稍微仔細一想,就會發現:M2 Ultra的增產實在是很奇怪。
在需求上就完全找不到理由。M2 Ultra僅用于高端Mac Studio和Mac Pro,這些產品一年了都沒什么有意義的更新,也沒聽說有哪個新產品要用到M2 Ultra。
總之,高端的臺式PC和MacBook的需求都相當低迷,沒有任何跡象表明,有什么消費需求能消耗掉這些設備。
所以,蘋果究竟在下一盤什么棋?
跟M2 Ultra的增產消息呼應的,就是華爾街日報和彭博社最近的報道——蘋果正在自己的數據中心,使用自己的芯片,為蘋果用戶提供AI服務。
另外,蘋果在擴建數據中心基礎設施上,也有著野心勃勃的計劃。
兩位記者發現,蘋果目前至少有7個數據中心,涉及到30多座建筑,這還不包括計劃中的項目。結果就是,這些數據中心的總容量在短時間內,就會翻一番。
上圖是蘋果公司即將建成的最大數據中心。目前只有一個數據中心,但明年將有許多數據中心陸續建成
挖來基礎設施大牛
另外,蘋果還在幾個月內進行了一系列重大招聘,招兵買馬擴張基礎設施團隊。
比如,他們挖來了云基礎設施領域的大牛Sumit Gupta,來操刀蘋果的基礎設施。
Gupta在2007年到2015年效力于英偉達,參與了英偉達進軍加速計算的初級階段。隨后他又入職IBM,再于2021年加入谷歌的AI基礎設施團隊,成為谷歌基礎設施產品經理,包括TPU和基于Arm的數據中心CPU。
谷歌和英偉達算是目前唯二大規模部署AI基礎設施的公司,能挖來這樣的大牛,蘋果要做的事恐怕不小。
蘋果自研AI芯片
然而尷尬的是,M2 Ultra對于AI服務器來說,恐怕并不是個好主意。
雖然業界普遍認為,蘋果的M系列芯片在AI性能上表現出色,但這僅限于設備端的AI應用,服務器上就不一定了。
現實的情況是,蘋果的競爭對手們在筆記本和臺式電腦上使用的內存架構要差得多:現有的英特爾、AMD和高通筆記本,都只有128位的內存總線,而蘋果的內存總線寬度要遠遠吊打他們的CPU。
這就會導致這樣一種后果:雖然其他筆記本電腦可以配備與蘋果內存帶寬相當的英偉達GPU,但是英偉達采用的是成本較低的GDDR6內存架構,而蘋果采用的是高成本的LPDDR架構,這就需要更寬的總線、更大的芯片邊緣面積。
這就讓英偉達GPU受到了限制,它無法在內存中放下蘋果CPU能夠容納的高級模型,比如Llama 3-70B。雖然蘋果的每GB成本實際上更低,但LPDDR的內存容量太高。
這種優勢并不能延伸到云端的AI性能。設備端主要關注模型是否能夠運行,而云端則更關心經濟性。
在云端,雖然原始帶寬和容量很重要,但FLOPS的數量更關鍵,因為許多用戶通過批處理同時服務。高批處理大小,可以將推理成本(tokenomics)降低到10倍以上。
這樣的結果就是,M2 Ultra就像是一個糟糕社區中最好的一棟房子,它無法與數據中心其他GPU很好地協同。
不僅內存帶寬方面落后于競爭對手,但更重要的差距,在于其FLOPS較少,導致并發用戶數也大大減少。
Apple GPU中擁有的FLOPS數雖然極少,但幸運的是,好在他們還有神經引擎。
在蘋果設備上運行LLM的一種策略,是將多層感知器(multi-layer perceptron)運行在神經引擎上,同時將注意力機制(attention mechanism)運行在GPU上。
不過需要注意的是,這里還是存在一個帶寬問題,所以在總FLOPS方面,結果并不理想。
而且,就算我們能神奇地將GPU和神經引擎的FLOPS相加,性能仍然比數據中心GPU差了35倍到85倍。這意味著實現高批處理大小的能力有限,每個芯片服務的用戶數量也會大幅減少。
對于Llama 3-70B,M2 Ultra的每個芯片能服務4-6個用戶就算走運了,然而GPU卻常能實現64或更多的批處理大小。
靠成本能彌補嗎?
而且,目前我們還沒有分析最重要的變量之一——成本。
采用自研M2 Ultra,蘋果就無需支付商用硅或者定制設計合作者的高額利潤了。
計算下來, 兩個M2 Max芯片、InFO-L封裝和192GB的LPDDR,成本大約在2000美元左右。相比之下,H100的成本達到了10倍之多。
但同時也要考慮到超過10倍的性能差異。即使對于Llama 3-70B這類模型,蘋果也很難讓M2 Ultra具備很高的成本效益。
此外,當模型規模超出單個芯片時,這種情況并不適用。
計算并不是簡單地線性擴展,尤其是M系列的SoC并不是為這種擴展設計的。
芯片間唯一的互連是UltraFusion橋,將兩個M2 Max結合成一個M2 Ultra。但這與英偉達的NVLink的高速Serdes芯片間擴展完全不同。
雖然蘋果芯片在單位美元下能提供相當可觀的總計算量,但是和直接購買英偉達GPU相比,也沒差太多。
因為所有的浮點計算無法被集成到單一集群中,模型推理會被降級到以人類語速運行,規模上限是Llama 3同等大小,無法運行千億參數模型。
為什么要自研芯片?
理性原因
如果蘋果只是為了提供更好的Siri,自研芯片有點夸張。但實際上,蘋果的目標遠不止于此。
他們的目標是將所有數據、服務與AI集成在一起,這意味著從設備端到云端,從底層計算、操作系統到應用程序和數據,用戶都會有無縫銜接的流暢操作。
這種愿景符合蘋果一直以來對于用戶體驗的追求。但這不僅需要強大的AI計算性能,還需要從芯片到軟件的高度垂直的完整技術鏈。
比如Siri可能需要在云中運行,在手機或者Apple Watch上應答,同時保證強大功能、高速通信和流暢交互。
其中的另一個賣點在于,蘋果會在自己的數據中心處理用戶數據,而不是發送到第三方云服務,保護數據的隱私和安全。
非理性原因
但搭建自己的數據中心需要大量芯片和服務器,英偉達作為全球首屈一指的公司,完全可以提供所有高性能計算的基礎設施,自己從頭開始顯然不是最優解。
這看起來不太理性的商業決策,確實蘊含著一些情感因素,這里就牽扯到蘋果和英偉達的一樁舊怨了。
雖然如今英偉達已憑「毫無瑕疵的工程執行力」封神,但過去的英偉達,也曾犯下不少重大的工程錯誤。
最大的一個,就是2006至2009年間的「bumpgate」丑聞。
在那段時間里,英偉達的整個55nm和65nmGPU系列由于高熱量和糟糕的封裝設計,早期故障率極高,超過40%。芯片和封裝基板之間的凸點由于應力容易破裂,導致故障率完全不可接受。這是因為,英偉達選擇了一種Tg過低的劣質填充物,因此在操作循環期間的高溫下無法正確支撐凸點,導致了它們的疲勞。
這就影響了GeForce 6000、7000、8000和9000系列,以及各種移動芯片組。
蘋果、Dell和HP出售的含有英偉達芯片組的筆記本,全部受到影響。而糟糕的,就是英偉達的處理方式。起初,它拒絕承擔責任,蘋果、Dell和HP怒而對英偉達提起集體訴訟,迫使英偉達同意更換已售出的有缺陷GPU。
從此,蘋果和英偉達的關系可以說是徹底破裂,英偉達再也沒有被設計進任何一份蘋果產品中。
甚至,蘋果不惜選擇性能和功耗更差的AMD GPU,甚至和AMD合作開發了一款在筆記本中使用HBM的定制GPU。
所有這些歷史包袱,都會讓蘋果對再次依賴英偉達,感到心里打鼓。
蘋果「芯」的未來
M2 Ultra推出只是蘋果給出的一個臨時的解決方案,并在逐步開發更強大的芯片。
不過,目前M3 Ultra已在內部取消。
M4 Ultra還未投入生產階段,甚至可能會被擱置,成為下一個夭折的產品。
而目前,這些芯片還沒有針對大模型所需的計算完成優化,其神經引擎結構帶寬嚴重不足,需要加以改造,才能適配。
不過,蘋果并不會去依賴其他芯片供應商,去幫助自己開發AI芯片。
我們可能看到,蘋果授權使用高速串行通信(SerDes)技術,去設計開發數據中心的專用芯片。
但,這一過程還需要數年的時間,目前還處于構想階段。
因此,在今年和明年,我們仍將看到蘋果Macbook和Mac mini上,使用增強版的蘋果芯片。
在AI PC時代「迎頭趕上」
在大模型方面,毋庸置疑,蘋果目前的成果無法和GPT、Gemini或者Claude等系列相提并論。
然而,繼微軟提出AI PC之后,可以預料到,AI與硬件和操作系統進行更深度的集成是大勢所趨。
蘋果想要繼續走在智能硬件的前沿,就必須拿出有競爭力的AI模型,提供符合「蘋果風格和價值觀」的AI服務。
然而,他們似乎并沒有儲備足夠的算力和AI人才來訓練自己的AI大模型。
雖然App Store已經提供了ChatGPT應用的下載,但作為一個傾向于高度垂直整合的公司,做到這一步遠遠不夠。
彭博社披露稱,蘋果已經與OpenAI達成協議,并正在和谷歌、Anthropic討論,也許這類成熟的模型會直接被集成、封裝在在蘋果設備上,并使用與蘋果品牌形象一致的系統prompt。
另一個值得關注的方面是搜索功能。
谷歌每年向蘋果支付200億美元,換取Chrome作為蘋果的默認搜索引擎。但這其實是一個雙贏的交易,從龐大且有錢的蘋果用戶身上,谷歌用搜索中的廣告收入賺回這筆錢綽綽有余。
但隨著ChatGPT、Llama與Claude相繼發力向搜索工具轉型,蠶食谷歌在搜索引擎方面的巨大市場份額,這種穩定的商業模式或許會發生改變。
歸根結底,蘋果不能只滿足于硬件供應商的地位,無論其他公司的AI模型有怎樣的進展,它至少要保持「迎頭趕上」的節奏。
僅僅在App Store上線各種AI模型和應用會讓它失去控制權,失去在數據和隱私方面的品牌原則,也錯過生成式AI可能帶來的用戶增長和廣告收入。
此外,和微軟的AI PC全部在本地運行AI推理不同,蘋果的「Project Greymatter」采用混合的工作方式——
大部分計算強度較低的 AI 功能在設備上完成,但如果需要更多算力,則將被推送到云端。
這項服務一經推出,很有可能在短時間內迎來大規模流量涌入,這對蘋果的AI基礎設施會是一個考驗。
雖然在AI之戰中短暫落后,但蘋果有一個不能忽視的獨特優勢——龐大的忠實用戶群。
一旦發布AI功能,全球的數億臺蘋果設備,都可以在短時間內更新,并提供給用戶試用。
在未來某個時間節點,蘋果可能一夜之間成為全球AI競技場上最大的玩家。