從炒菜到縫針!斯坦福炒蝦團隊打造自主「AI達芬奇」,苦練神指當外科醫生 精華
斯坦福炒蝦機器人作者,又出新作了。
這次,機器人不是給我們炒飯了,而是給我們做外科手術!
最近,約翰霍普金斯和斯坦福大學的研究者們,進行了一項新的探索——
著名的醫療機器人達芬奇,是否可以通過模仿學習,來學習外科手術的操作任務呢?
經過實驗后,他們成功了!
組織操作、針頭處理和打結這三項基本的手術任務,達芬奇都可以自己獨立完成了。
首先是需要醫學生苦練指法的縫合打結技術,只見達芬奇「飛針走線」,很熟練地就可以把結打好:
接下來是針的拾取和移交,達芬奇也能夠一次精準操作,動作絕無拖泥帶水。
第三大任務是提起組織,可以看到達芬奇選擇了正確著力點,輕松提起了組織。
最重要的是,以上動作全部都是達芬奇自主完成的!
??翻開研究作者一欄,赫然出現了炒蝦機器人的作者Tony Zhao和Chelsea Finn。??
果然,這種程度的精細操作,怎么看都有一股熟悉的味道。
論文地址:https://arxiv.org/abs/2407.12998
博客地址:https://surgical-robot-transformer.github.io/
要知道,跟家庭環境中的桌面操作相比,手術任務需要精確操縱可變形物體,還要面對不一致的照明和遮擋的硬感知問題。
另外,手術機器人通常可能還有不準確的本體感覺和遲滯。
這些問題,他們都是如何克服的?
大型臨床數據存儲庫,機器人可以學習了
大規模模仿學習,在操作任務的通用系統上顯示出了巨大的前景,比如讓機器人給我們做家務。
不過這次研究者們盯上的,是外科領域。
外科領域是一個尚未開發、潛力巨大的領域,尤其是在達芬奇手術機器人的加持之下。
截止2021年,全球已經有67個國家使用了6500套達芬奇系統,進行了超過1000萬例手術。
而且,這些手術的過程都被全程記錄了下來,從而讓我們有了大量的演示數據存儲庫。
如此大規模的數據,能否利用起來,構建一個自主手術的通才系統?
然而,當研究者們下手研究時卻發現:讓達芬奇機器人通過模仿學習來做外科手術,存在一個難點——
由于達芬奇系統本身的特殊性,就導致了獨特的挑戰,阻礙了模仿學習的實施。
右上是真實的醫療環境,右下是研究人員的實驗設置
而且,由于聯合測量不精確,其正向運動學就會不一致,如果只是簡單地使用這種近似運動學數據訓練一個策略,通常會導致任務的失敗。
很簡單的視覺伺服任務,機器人也無法執行。訓練輸出絕對末端執行器姿勢的策略(這是訓練機器人策略的常用方法),在所有任務中的成功率都接近于0。
怎樣克服這種限制?
團隊發現,達芬奇系統的相對運動,比它的絕對正向運動學更加一致。
因此,他們想到一個辦法:引入一種相對動作公式,使用它的近似運動學數據,來進行策略訓練和部署。
他們考慮了以下三個選項:以相機為中心、以工具為中心和混合相關操作。
以相機為中心的動作表示是一種基線方法,它將動作建模為末端執行器相對于內窺鏡尖端的絕對姿勢。另外兩個是定義相對于當前工具(即末端執行器)框架或內窺鏡尖端框架的動作的相對公式
然后,使用圖像作為輸入和上述動作表示,來訓練策略。
這一點,他們的做法跟此前的工作不一樣,后者會使用運動學數據作為輸入,然而在這項工作中,達芬奇的運動學數據可能并不可靠。
他們的模型基于ACT,一種基于Transformer的架構。
團隊提出了一種策略設計,僅將圖形作為輸入,并輸出相對姿態軌跡
如果這種方法成功,那么包含近似運動學的大型臨床數據存儲庫,就可以直接用于機器人學習,而無需進一步校正了。
這對于機器人的臨床手術操作,無疑意義重大。
果然,在引入相對動作公式后,團隊便利用近似運動學數據,在達芬奇上成功地演示了模仿學習,不僅不需要進一步的運動學矯正,而且效果也大大優于基線方法。
實驗表明,模仿學習不僅可以有效地學習復雜的手術任務,還能推廣到新的場景,比如在看不見的真實人體組織上。
另外,腕式攝像機對于學習手術操作任務,也十分重要。
現在,除了之前已經展示的組織操作、針頭處理和打結等自主任務外,達芬奇機器人還可以完成下面多種操作。
零樣本泛化
斯坦福團隊的模型顯示出了適應新場景的能力,例如在出現未知的動物組織的情況下。
這是一段達芬奇在縫合豬肉并打結的視頻——
換成是雞肉,達芬奇也能精確地拿起放在肉表面的手術針。
這顯示出其在未來臨床研究中進行擴展的前景。
重試行為
那么,如果存在一些環境擾動,達芬奇是否還能穩定發揮呢?
可以看到,在其他器械突然闖入,并將手術縫合線故意剝落之后,達芬奇并沒有停下動作,仍然將打結行為進行了下去。
在下面整段視頻中,達芬奇在第一次操作中沒有拾起手術針,它很快意識到了這一事實,通過自動調整成功拾取。
重復性測試
臨床手術非同兒戲,必須保證臨床機器人具有可重復性,「萬無一失」是其必要能力。
研究團隊放出了達芬奇的重復性測試視頻,在不同視角下觀察它的多次操作,基本無可挑剔。
技術路徑
如下圖所示,達芬奇機器人的dVRK系統,由一個內窺鏡攝像操縱器(ECM)和兩個共享同一機器人底座的患者側操縱器(PSM1、PSM2)組成。
每個手臂都是被動設置關節的順序組合,而后面是機動主動關節。
然而,一般情況下,如果在所有關節中都使用電位器,會導致手臂的正向運動學不準確,甚至有高達5厘米的誤差。
不幸的是,dVRK提供的正向運動學數據并不穩定。這是因為設置關節(藍色)僅使用電位計進行關節測量,并不可靠。主動關節(粉色)同時使用電位器和電機編碼器,提高了精度
為了讓達芬奇完成通過模仿學習來完成手術操作任務這一目標,鑒于機器人的前向運動學不準確,團隊提出了前文中所提到的三種動作表示法,其中混合相對方法進一步提高了平移動作的準確性。
執行細節
為了訓練可行的策略,研究使用帶有Transformer的動作分塊(ACT)和擴散策略。
他們使用了內窺鏡和手腕相機圖像作為輸入來訓練策略,這些圖像均縮小為224x224x3的圖像尺寸。
手術內窺鏡圖像的原始輸入尺寸為1024x1280x3,手腕圖像為480x640x3。
運動學數據不像其他模仿學習方法中常見的那樣作為輸入提供,這是因為由于dVRK的設計限制,運動學數據通常不一致。
策略輸出包括末端執行器(delta) 位置、(delta) 方向和雙臂下頜角度。
實驗過程
在這次實驗中,研究者的目標是弄清這些問題的答案——
1. 模仿學習是否足以應對復雜的外科操作任務?
2. dVRK的相對運動是否比其絕對前向運動學更穩定?
3. 使用腕式攝像頭是否對提高成功率至關重要?
4. 模型在未見過的新場景中能否有效泛化?
首先需要評估的是,達芬奇的相對運動是否比其絕對前向運動學更加一致。
評估方法是在不同的機器人配置下,使用絕對與相對運動公式重復記錄參考軌跡。
具體來說,機器人需要在模擬人體腹部的圓頂,使用相同的孔,將手臂和內窺鏡大致放置在相似的位置。
這項任務不簡單,因為孔比內窺鏡和工具軸的尺寸大得多,而且必須通過移動安裝接頭,將工具手動放置到孔中。
總體而言,實驗表明,在存在測量誤差的情況下,相對運動的一致性更高。因此,將策略動作建模為相對運動是更好的選擇。
在這項配置中,共收集了224次組織提起實驗、250次針的拾取和移交實驗,以及500次打結實驗
圖5展示了在各種機器人配置下重復錄制的參考軌跡,以此來測試所有動作表示的可重復性。
左圖顯示了所有動作表示法的參考軌跡的完美重構,因為自參考軌跡采集以來,機器人關節沒有移動過。
而當機器人向左或向右移動時(中、右圖),以攝像頭為中心的動作表示法無法跟蹤參考軌跡,而相對動作表示法則能很好地跟蹤參考軌跡。
各種機器人配置下的軌跡跟蹤
除此之外,團隊還評估了使用各種動作表示法訓練的模型的任務成功率。
結果表明,使用相對動作表述(以工具為中心的動作表述和混合相對動作表述)訓練出來的策略表現良好,而使用絕對正向運動學訓練出來的策略則失敗了。
而在下圖中,最上面一行,就是組織提起任務中,機器人需要抓住橡膠墊(組織)的一角,將其向上提起。
在訓練期間,組織的一角保持著紅色框內,顯示測試時角的配置。
中間一行,是針的拾取和移交。
在訓練過程中,針被隨機放在了紅色盒子內。測試時,針的中心隆起被放置在如圖所示的9個位置,以在評估期間強制執行一致的設置。
下面一行,機器人在打結的過程中,需要使用左側的繩子形成一個環,通過環來抓住繩子的末端,然后將夾具拉離彼此。
在訓練期間,來自墊子的繩子位置隨機放在紅色方框內,而測試時,繩子被放在紅色方框中央。
下面的視頻顯示了使用手臂的絕對前向運動學(以攝像頭為中心的動作)訓練策略的結果。
由于達芬奇手臂的前向運動學存在誤差,在訓練和推理之間會發生顯著變化,因此這些策略無法完成任務。
而且,研究人員還觀察到,在學習外科手術操作任務時,腕部攝像頭能帶來顯著的性能提升。
顯然,能夠自主學習的手術機器人,有望在未來進一步擴展外科醫生的能力。
本文轉自新智元 ,作者:新智元
