斷交OpenAI后，人形機(jī)器人獨(dú)角獸首秀：一個(gè)神經(jīng)網(wǎng)絡(luò)控制整個(gè)上身，能聽(tīng)懂人話可抓萬(wàn)物

2025-02-21 06:05:54

Helix，一個(gè)端到端通用控制模型，它能讓機(jī)器人像人一樣感知、理解和行動(dòng)。只需自然語(yǔ)言提示，機(jī)器人就能拿起任何東西，哪怕是從沒(méi)見(jiàn)過(guò)的東西，比如這個(gè)活潑的小仙人掌。

與OpenAI斷交之后，Figure首個(gè)成果出爐：

Helix，一個(gè)端到端通用控制模型，它能讓機(jī)器人像人一樣感知、理解和行動(dòng)。

只需自然語(yǔ)言提示，機(jī)器人就能拿起任何東西，哪怕是從沒(méi)見(jiàn)過(guò)的東西，比如這個(gè)活潑的小仙人掌。

從官方放出的演示中可以看到，它在接收到人類的提示后，就會(huì)按照指令逐一拿起桌上的物品放進(jìn)冰箱。

圖片

嗯，是有種“機(jī)器人站著不語(yǔ)，只是一味地執(zhí)行指令”的感覺(jué)了。

兩個(gè)機(jī)器人也可以共同協(xié)作，但有意思的一點(diǎn)是，他們竟然共用同一組神經(jīng)網(wǎng)絡(luò)。

△加速2倍

來(lái)看看具體是怎么一回事。

像人類一樣思考的AI

從技術(shù)報(bào)告上看，這個(gè)通用“視覺(jué)-語(yǔ)言-動(dòng)作” (VLA) 模型完成了一系列的首創(chuàng)：

整個(gè)上身控制，Helix是首個(gè)能對(duì)整個(gè)上身（包括手腕、軀干、頭部和各個(gè)手指）進(jìn)行高速率（200Hz）連續(xù)控制的VLA。

多機(jī)器人協(xié)作，第一個(gè)同時(shí)在兩個(gè)機(jī)器人上運(yùn)行的 VLA，使它們能夠使用從未見(jiàn)過(guò)的物品解決共享的、遠(yuǎn)程操作任務(wù)。

拿起任何東西，只需按照自然語(yǔ)言提示，就能拿起幾乎任何小型家居物品，包括數(shù)千種它們從未遇到過(guò)的物品。

一個(gè)神經(jīng)網(wǎng)絡(luò)，與之前的方法不同，Helix 使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重來(lái)學(xué)習(xí)所有行為（挑選和放置物品、使用抽屜和冰箱以及跨機(jī)器人交互），而無(wú)需任何針對(duì)特定任務(wù)的微調(diào)。

可立即商業(yè)化部署，第一款完全在嵌入式低功耗 GPU 上運(yùn)行的 VLA，可立即進(jìn)行商業(yè)部署。

Helix由兩個(gè)系統(tǒng)組成，兩個(gè)系統(tǒng)經(jīng)過(guò)端到端訓(xùn)練，并且可以進(jìn)行通信。

圖片

系統(tǒng)2：VLM主干，基于在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的7B開(kāi)源VLM，它將單目機(jī)器人圖像和機(jī)器人狀態(tài)信息（包括手腕姿勢(shì)和手指位置）投射到視覺(jué)語(yǔ)言嵌入空間后進(jìn)行處理。

工作頻率為 7-9 Hz，用于場(chǎng)景理解和語(yǔ)言理解，可對(duì)不同對(duì)象和語(yǔ)境進(jìn)行廣泛的泛化。

系統(tǒng)1：80M參數(shù)的交叉注意力Transformer，用于處理底層控制。它依靠一個(gè)完全卷積、多尺度的視覺(jué)骨干網(wǎng)進(jìn)行視覺(jué)處理，該骨干網(wǎng)由完全在模擬中完成的預(yù)訓(xùn)練初始化而成。

將 S2 生成的潛在語(yǔ)義表征轉(zhuǎn)化為精確的連續(xù)機(jī)器人動(dòng)作，包括所需的手腕姿勢(shì)、手指彎曲和外展控制，以及軀干和頭部方向目標(biāo)。速度為200Hz。

他們?cè)趧?dòng)作空間中附加了一個(gè)合成的 “任務(wù)完成百分比 ”動(dòng)作，使 Helix 能夠預(yù)測(cè)自己的終止條件，從而更容易對(duì)多個(gè)任務(wù)進(jìn)行排序。

這種解耦架構(gòu)允許每個(gè)系統(tǒng)在其最佳時(shí)間尺度上運(yùn)行。S2可以“慢慢思考”高級(jí)目標(biāo)，而 S1 可以“快速思考”以實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作。

訓(xùn)練過(guò)程是完全端到端，從原始像素和文本命令映射到具有標(biāo)準(zhǔn)回歸損失的連續(xù)動(dòng)作。

并且Helix 不需要針對(duì)特定任務(wù)進(jìn)行調(diào)整；它保持單個(gè)訓(xùn)練階段和單個(gè)神經(jīng)網(wǎng)絡(luò)權(quán)重集，無(wú)需單獨(dú)的動(dòng)作頭或每個(gè)任務(wù)的微調(diào)階段。

人形機(jī)器人的Scaling Law

CEO透露，這項(xiàng)工作他們花費(fèi)了一年多的時(shí)間，旨在解決通用機(jī)器人問(wèn)題——

像人類一樣，Helix可以理解語(yǔ)音、推理問(wèn)題并能抓住任何物體。

而就在兩周前，他們宣布取消與OpenAI之間的合作關(guān)系，當(dāng)時(shí)就透露會(huì)在接下來(lái)的30天展示“沒(méi)人在人形機(jī)器人上見(jiàn)過(guò)的東西”。

如今已經(jīng)揭曉，就是Helix。

圖片

值得一提的是，Helix還代表著一種新型的Scaling Law。

他們認(rèn)為，家庭是機(jī)器人面臨的最大挑戰(zhàn)。與受控的工業(yè)環(huán)境不同，家里堆滿了無(wú)數(shù)的物品。為了讓機(jī)器人在家庭中發(fā)揮作用，它們需要能夠按需產(chǎn)生智能的新行為，尤其是對(duì)它們從未見(jiàn)過(guò)的物體。

當(dāng)前，教機(jī)器人一種新行為需要大量的人力。要么是數(shù)小時(shí)的博士級(jí)專家手動(dòng)編程，要么是數(shù)千次演示。

這兩種方式成本都很高，所以都是行不通的（dont work）。

圖片

與早期的機(jī)器人系統(tǒng)不同，Helix能夠即時(shí)生成長(zhǎng)視界、協(xié)作、靈巧的操作，而無(wú)需任何特定任務(wù)的演示或大量的手動(dòng)編程。

Helix 表現(xiàn)出強(qiáng)大的對(duì)象泛化能力，能夠拾取數(shù)千種形狀、大小、顏色和材料特性各異的新奇家居用品，而這些物品在訓(xùn)練中從未見(jiàn)過(guò)，只需用自然語(yǔ)言詢問(wèn)即可。

這意味著，這代表 Figure 在擴(kuò)展人形機(jī)器人行為方面邁出了變革性的一步。

到時(shí)候，當(dāng)Helix 擴(kuò)大1000倍、機(jī)器人擴(kuò)展到十億級(jí)別，會(huì)是什么樣子？有點(diǎn)子期待。

參考鏈接：
[1]https://www.figure.ai/news/helix
[2]https://x.com/adcock_brett/status/1892577936869327233

責(zé)任編輯：武曉燕來(lái)源：量子位

OpenAI 機(jī)器人神經(jīng)網(wǎng)絡(luò)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斷交OpenAI后，人形機(jī)器人獨(dú)角獸首秀：一個(gè)神經(jīng)網(wǎng)絡(luò)控制整個(gè)上身，能聽(tīng)懂人話可抓萬(wàn)物

像人類一樣思考的AI

人形機(jī)器人的Scaling Law