很突然、很驚艷，馬斯克公布特斯拉人形機器人，自研超算Dojo亮相

作者：機器之心 2021-08-23 09:40:45

企業動態

北京時間 8 月 20 日上午，萬眾矚目的「特斯拉 AI 日」開始了。在活動上，伊隆 · 馬斯克向全世界展示了特斯拉在自研超級計算機 Dojo、FSD 軟件等內容上的最新進展。

特斯拉的自動化能力很強，不用來造機器人就太浪費了。

「非常抱歉，我們遭遇了一點技術問題，希望以后這可以用 AI 來解決。」今天的活動延遲了半個多小時，伊隆 · 馬斯克這樣做了開場白。

按照馬斯克本人的說法，吸引最好的 AI 人才加入特斯拉似乎是本次活動的唯一目標。

當然，這次發布向世人宣告的遠不止于此，有關通用機器人的計劃讓我們始料未及。

純視覺自動駕駛系統和 HydraNets

首先，特斯拉最被人們關注的是自動駕駛技術。

特斯拉一直標榜自己的電動車具備高度自動化的輔助駕駛能力，7 月 10 日，FSD(Fully Self Driving，全自動輔助駕駛系統)軟件迎來更新。不過當時，更新僅限于特斯拉搶先體驗計劃用戶，這些用戶可以進行 FSD Beta V9 版本測試，其最大亮點是基于攝像頭和 AI 智能算法的純視覺自動輔助駕駛技術路線，而不依賴于雷達傳感器。

7 月 31 日，特斯拉正式推送 FSD 的最新版本 FSD Beta V9.1，這是首個使用「特斯拉視覺」的先進司機輔助駕駛套件。8 月 16 日，特斯拉又推送了 FSD Beta V9.2 版本。

特斯拉 AI 總監 Andrej Karpathy 博士介紹了這種基于視覺的自動駕駛系統：它通過八個攝像頭的數據輸入(1280×960 12-Bit HDR 36Hz)進單個神經網絡中，整合成 3D 環境的感知，這被稱為 Vector Space。

「AI 可以被視為生物，它是從頭開始構建的，包括其合成視覺皮層。」

當特斯拉在汽車中設計視覺皮層時，他們從頭設計了神經網絡，按照生物視覺方法去建模，并利用多頭路線，其中包括相機校準、緩存、隊列和優化以簡化所有任務。

特斯拉從主干網絡中獲取數據，并將有用的信息輸入到不同的任務中(比如目標檢測、交通信號燈和車道預測)，同時拋棄其他內容，避免浪費算力。

特斯拉的自動駕駛算法是從識別單張圖片的普通計算機視覺算法開始的，雖然每個攝像頭的單獨檢測效果很棒，但這顯然不夠。現在的純視覺算法「HydraNets」基于不同攝像頭的視覺內容進行識別的，而且訓練和推斷是端到端的。

該算法將多個攝像頭的視覺內容轉變為向量空間和道路特征。

多攝像頭網絡的效果值得肯定，盡管只是數量上的增加，但卻可能成為解決預測問題的關鍵之處。該網絡生成的周圍景觀預測很大程度上提高了自動駕駛系統的穩健性。

紅綠燈左轉是對于自動駕駛的巨大挑戰，當車輛在道路上行駛并通過交叉路口時，神經網絡會通過 Spacial RNN 進行預測。并在虛擬環境中進行多次模擬，以進一步改善路徑規劃和理解。

在算法模擬的單元空間中，每一個 unit 都是一個 RNN，并隨著車輛的運動更新。

Karpathy 指出，特斯拉現在的 FSD 戰略是更具凝聚力的。事實證明，特斯拉的車輛可以有效地繪制實時地圖。與 Super Cruise 和 Waymo 等汽車及軟件領域的競爭對手的預繪制地圖策略相比，這是一個巨大的差異。

自動駕駛軟件總監 Ashok Elluswamy 介紹了混合規劃系統，以 Autopilot 如何變道為例，當與其他汽車并排行駛時，Autopilot 不僅要考慮它們的駕駛方式，還必須考慮其他汽車的運行方式。

在狹窄的過道周圍進行規劃時，重要的是要考慮其他駕駛員及其行為，例如在必要時讓行：

Karpathy 還提到了數據標注問題。他指出，外包給第三方公司的手動標簽并不是最佳選擇，本著垂直整合的精神，特斯拉選擇建立自己的標注團隊。

一開始，特斯拉使用的是 2D 圖像標簽。最終，特斯拉轉向了 4D 標簽，可以在向量空間中進行標注。但是這還不夠，自動標注技術得到了發展。

有太多的標簽需要完成標注，而讓人們手動來完成是不可能的。特斯拉自動駕駛軟件負責人 Ashok Elluswamy 展示了道路和道路上的其他物品是如何從一輛正在行駛的汽車中「重建」出來的。這有效地讓特斯拉能夠更快地標記數據，同時允許車輛即使在存在遮擋的情況下也能安全準確地導航。

甚至在對比度過高，攝像頭采集的圖像不夠清晰時，特斯拉還使用神經網絡對畫面進行了增強。

Ashok 指出，這些策略最終幫助特斯拉將雷達從 FSD 和 Autopilot 套件中淘汰，并采用了純視覺模型。雷達 + 攝像頭系統與純視覺之間的比較顯示了該公司當前的戰略有多精細。同時他也談到了仿真如何幫助特斯拉開發其自動駕駛系統。盡管特斯拉專注于現實世界的數據，但它也使用仿真。

特斯拉利用一個新的仿真程序 (用他們自己的話說，就是 Autopilot 扮演玩家的視頻游戲) 來測試邊緣情況和其他可能遇到的問題。

神秘超算 Dojo：革命性架構

DOJO，這次特斯拉 AI 日的最大看點，最終也沒有讓人失望。

2020 年 8 月，馬斯克表示，該公司正在研發一款名為「Dojo」的神經網絡訓練超級計算機，將主要處理從特斯拉汽車在路上獲得的海量視頻數據。馬斯克發推稱：「Dojo V1.0 還未完成，估計還需要一年的時間。不僅僅是芯片本身的研發難度，能效和冷卻問題也非常的難。」

幾個月后，馬斯克又補充道：「Dojo 采用我們自研的芯片和為神經網絡訓練優化的計算架構，而非 GPU 集群。盡管可能是不準確的，但是我認為 Dojo 將會是世界上最棒的超算。」

今天，特斯拉終于揭開了 Dojo 計算機芯片的神秘面紗。它采用了創新的架構，將算力分布在復雜的網絡構造中，實現了極高的算力、高帶寬、低延遲的網絡吞吐量。

[[418944]]

Dojo 的設計是從芯片開始從頭做起的。Dojo 的訓練 CPU 屬于 ASIC 芯片，專注于人工智能訓練，采用 7 納米制程，可以實現 1024GFLOPS 的 BF16 算力，在芯片周圍的四向都有 4TB/s 的傳輸帶寬。

特斯拉宣稱它的效率超過了現有的 GPU 和 TPU，其主要的優勢是在帶寬上。

Dojo 用所有力量做一件事：使自動駕駛汽車成為可能。它是一個純粹的機器學習機器，以現有芯片和服務器的思路看，它的規格堪稱「瘋狂」：首先把 50 萬個訓練節點集合在一起，每個區塊都有 9 petaflops 的算力，每秒 36 TB 的區塊外帶寬。

但這只是 Dojo 的冰山一角。在應用時，120 個這樣的 D1 芯片區塊被整合為一個 ExaPOD，顧名思義，它有每秒超過 1 億億次的運算能力(10 的 18 次方)，這是目前世界上最快的 AI 訓練計算機。與業內其他產品相比，在同樣的成本上，ExaPOD 的性能要高 4 倍，能耗比高 1.3 倍，占用空間縮小了 5 倍。