很突然、很驚艷,馬斯克公布特斯拉人形機器人,自研超算Dojo亮相
特斯拉的自動化能力很強,不用來造機器人就太浪費了。
「非常抱歉,我們遭遇了一點技術問題,希望以后這可以用 AI 來解決。」今天的活動延遲了半個多小時,伊隆 · 馬斯克這樣做了開場白。
北京時間 8 月 20 日上午,萬眾矚目的「特斯拉 AI 日」開始了。在活動上,伊隆 · 馬斯克向全世界展示了特斯拉在自研超級計算機 Dojo、FSD 軟件等內容上的最新進展。
按照馬斯克本人的說法,吸引最好的 AI 人才加入特斯拉似乎是本次活動的唯一目標。
當然,這次發布向世人宣告的遠不止于此,有關通用機器人的計劃讓我們始料未及。

純視覺自動駕駛系統和 HydraNets
首先,特斯拉最被人們關注的是自動駕駛技術。
特斯拉一直標榜自己的電動車具備高度自動化的輔助駕駛能力,7 月 10 日,FSD(Fully Self Driving,全自動輔助駕駛系統)軟件迎來更新。不過當時,更新僅限于特斯拉搶先體驗計劃用戶,這些用戶可以進行 FSD Beta V9 版本測試,其最大亮點是基于攝像頭和 AI 智能算法的純視覺自動輔助駕駛技術路線,而不依賴于雷達傳感器。
7 月 31 日,特斯拉正式推送 FSD 的最新版本 FSD Beta V9.1,這是首個使用「特斯拉視覺」的先進司機輔助駕駛套件。8 月 16 日,特斯拉又推送了 FSD Beta V9.2 版本。
特斯拉 AI 總監 Andrej Karpathy 博士介紹了這種基于視覺的自動駕駛系統:它通過八個攝像頭的數據輸入(1280×960 12-Bit HDR 36Hz)進單個神經網絡中,整合成 3D 環境的感知,這被稱為 Vector Space。
「AI 可以被視為生物,它是從頭開始構建的,包括其合成視覺皮層。」
當特斯拉在汽車中設計視覺皮層時,他們從頭設計了神經網絡,按照生物視覺方法去建模,并利用多頭路線,其中包括相機校準、緩存、隊列和優化以簡化所有任務。
特斯拉從主干網絡中獲取數據,并將有用的信息輸入到不同的任務中(比如目標檢測、交通信號燈和車道預測),同時拋棄其他內容,避免浪費算力。
特斯拉的自動駕駛算法是從識別單張圖片的普通計算機視覺算法開始的,雖然每個攝像頭的單獨檢測效果很棒,但這顯然不夠。現在的純視覺算法「HydraNets」基于不同攝像頭的視覺內容進行識別的,而且訓練和推斷是端到端的。
該算法將多個攝像頭的視覺內容轉變為向量空間和道路特征。
多攝像頭網絡的效果值得肯定,盡管只是數量上的增加,但卻可能成為解決預測問題的關鍵之處。該網絡生成的周圍景觀預測很大程度上提高了自動駕駛系統的穩健性。
紅綠燈左轉是對于自動駕駛的巨大挑戰,當車輛在道路上行駛并通過交叉路口時,神經網絡會通過 Spacial RNN 進行預測。并在虛擬環境中進行多次模擬,以進一步改善路徑規劃和理解。
在算法模擬的單元空間中,每一個 unit 都是一個 RNN,并隨著車輛的運動更新。
Karpathy 指出,特斯拉現在的 FSD 戰略是更具凝聚力的。事實證明,特斯拉的車輛可以有效地繪制實時地圖。與 Super Cruise 和 Waymo 等汽車及軟件領域的競爭對手的預繪制地圖策略相比,這是一個巨大的差異。
自動駕駛軟件總監 Ashok Elluswamy 介紹了混合規劃系統,以 Autopilot 如何變道為例,當與其他汽車并排行駛時,Autopilot 不僅要考慮它們的駕駛方式,還必須考慮其他汽車的運行方式。
在狹窄的過道周圍進行規劃時,重要的是要考慮其他駕駛員及其行為,例如在必要時讓行:
Karpathy 還提到了數據標注問題。他指出,外包給第三方公司的手動標簽并不是最佳選擇,本著垂直整合的精神,特斯拉選擇建立自己的標注團隊。
一開始,特斯拉使用的是 2D 圖像標簽。最終,特斯拉轉向了 4D 標簽,可以在向量空間中進行標注。但是這還不夠,自動標注技術得到了發展。
有太多的標簽需要完成標注,而讓人們手動來完成是不可能的。特斯拉自動駕駛軟件負責人 Ashok Elluswamy 展示了道路和道路上的其他物品是如何從一輛正在行駛的汽車中「重建」出來的。這有效地讓特斯拉能夠更快地標記數據,同時允許車輛即使在存在遮擋的情況下也能安全準確地導航。
甚至在對比度過高,攝像頭采集的圖像不夠清晰時,特斯拉還使用神經網絡對畫面進行了增強。
Ashok 指出,這些策略最終幫助特斯拉將雷達從 FSD 和 Autopilot 套件中淘汰,并采用了純視覺模型。雷達 + 攝像頭系統與純視覺之間的比較顯示了該公司當前的戰略有多精細。同時他也談到了仿真如何幫助特斯拉開發其自動駕駛系統。盡管特斯拉專注于現實世界的數據,但它也使用仿真。
特斯拉利用一個新的仿真程序 (用他們自己的話說,就是 Autopilot 扮演玩家的視頻游戲) 來測試邊緣情況和其他可能遇到的問題。
神秘超算 Dojo:革命性架構
DOJO,這次特斯拉 AI 日的最大看點,最終也沒有讓人失望。
2020 年 8 月,馬斯克表示,該公司正在研發一款名為「Dojo」的神經網絡訓練超級計算機,將主要處理從特斯拉汽車在路上獲得的海量視頻數據。馬斯克發推稱:「Dojo V1.0 還未完成,估計還需要一年的時間。不僅僅是芯片本身的研發難度,能效和冷卻問題也非常的難。」
幾個月后,馬斯克又補充道:「Dojo 采用我們自研的芯片和為神經網絡訓練優化的計算架構,而非 GPU 集群。盡管可能是不準確的,但是我認為 Dojo 將會是世界上最棒的超算。」
今天,特斯拉終于揭開了 Dojo 計算機芯片的神秘面紗。它采用了創新的架構,將算力分布在復雜的網絡構造中,實現了極高的算力、高帶寬、低延遲的網絡吞吐量。
Dojo 的設計是從芯片開始從頭做起的。Dojo 的訓練 CPU 屬于 ASIC 芯片,專注于人工智能訓練,采用 7 納米制程,可以實現 1024GFLOPS 的 BF16 算力,在芯片周圍的四向都有 4TB/s 的傳輸帶寬。
特斯拉宣稱它的效率超過了現有的 GPU 和 TPU,其主要的優勢是在帶寬上。
Dojo 用所有力量做一件事:使自動駕駛汽車成為可能。它是一個純粹的機器學習機器,以現有芯片和服務器的思路看,它的規格堪稱「瘋狂」:首先把 50 萬個訓練節點集合在一起,每個區塊都有 9 petaflops 的算力,每秒 36 TB 的區塊外帶寬。
但這只是 Dojo 的冰山一角。在應用時,120 個這樣的 D1 芯片區塊被整合為一個 ExaPOD,顧名思義,它有每秒超過 1 億億次的運算能力(10 的 18 次方),這是目前世界上最快的 AI 訓練計算機。與業內其他產品相比,在同樣的成本上,ExaPOD 的性能要高 4 倍,能耗比高 1.3 倍,占用空間縮小了 5 倍。

「我們很快就會組裝起第一臺這樣的服務器,這樣的設備可以無限鏈接。」特斯拉 Dojo 項目負責人 Ganesh Venkataramanan 表示,Dojo 有望成為地球上最強大的超級計算機之一。
這些芯片可以幫助 AI 模型利用特斯拉汽車上的攝像頭收集到的視頻,進而識別各種內容。「我們應該在明年讓 Dojo 投入運營,」馬斯克說道。
與此同時,特斯拉還圍繞這套計算系統構建了完整的軟件堆棧,深度學習框架用的是 PyTorch。
此外,特斯拉還計劃讓下一代 Dojo 性能再提升 10 倍。
特斯拉人形機器人
以上都是此前劇透過的信息,但還有 one more thing,特斯拉要造人形機器人。
在幾張幻燈片中,我們可以了解到 Tesla Bot 的一些信息。首先,這款機器人可以用在特斯拉的自動駕駛汽車上,它能學會使用我們在駕駛汽車時所操作的所有裝置。然后,你就可以吩咐它去商店買東西…… 馬斯克認為,人形機器人「會對未來經濟產生深遠影響」。
它的身高大概是 1.72 米(5 英尺 8 英寸),重約 125 磅,身材勻稱,還帶有一張面部屏幕能夠以約 5 英里 / 小時的速度移動。
這款機器人的第一個實體版本或將在明年面世,設計初衷就是用來處理那些「不安全、重復的、無聊的工作」。馬斯克說:「我認為在未來,體力工作會是一種選擇,你愿意的話也可以,不愿意的話也行。」
這仿佛代表了馬斯克的某種設想:「制造類人機器人是特斯拉下一個必然要投入的方向。」畢竟他認真地說過,特斯拉已經是「世界上最大的機器人公司」。
當然,特斯拉機器人目前還只是一個設想,我們距離全能機器人管家的距離,要比自動駕駛汽車更遠。
在最后,QA 環節的第一個問題有點幽默:「特斯拉會擁抱開源嗎?」
馬斯克的回答是:「這些東西都是花費了巨資研制的,所以我不太確定要不要開源。」但如果其他汽車公司想要獲得 Autopilot 的許可,那是可以做到的。
但正如 SpaceX 和特斯拉此前所做的一樣,馬斯克的公司經常能讓先進技術變得越來越便宜。不知在未來,人形機器人是否也會很快有一個親民的價格?
【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】