機器人在人機協作團隊中成“領導”？工作原理為何？

作者：晟煒 2019-08-05 14:34:59

我們的生活大多圍繞著團隊協作。例如，我們在與人群協作或影響人群時，既能夠以顯而易見的方式(如一起做飯時)，也能夠以不易察覺的方式(如在高速公路上共享車道時)。隨著機器人越來越融入社會，它們應該能夠很好地與人類群體協作。

隨著機器人技術的發展，機器人在實際生活中發會越來越重要的作用。它不僅只是根據人類的指令來行動，更開始在人機協同工作中開始發揮引導人類工作的作用。本文介紹了斯坦福 AI 研究院的研究人員如何應用領導者-跟隨者圖(LFG)來更好地發揮機器人在團隊中的領導作用。

團體協作的例子包括協作烹飪、抗議和在擁擠的空間中穿行。

然而，要影響人群是具有挑戰性的。例如，想象一下在一個志愿搜救任務中，無人機學習關于目標位置的最新信息(如下面的藍色標記所示)。假設沒有直接的通訊方式，無人機應該如何帶領志愿者前往那個地點?

藍色箭頭表示所需路徑，紅色箭頭表示當前人類志愿者的次優路徑。

無人機領導團隊的一種方式，是分別對每個個體進行建模并單獨施加影響。其中，無人機建模的用意在于理解并預測某個人的行為。然而，獨立于他人的建模和影響并不能很好地擴展到人數更多的個體，而且我們無法在進行在線快速計算。

一個為每個志愿者單獨建模的無人機。這種方法不適用于大量智能體。

影響人類團隊的另一種方法是放棄任何建模，直接從對團隊的觀察中學習策略或行動規劃。這種方法為人數同樣多的團隊提供了一個合理的解決方案。但是，添加或減去一個團隊成員會改變模型的輸入大小，并且需要重新訓練模型。

我們取得成果如下：

引入了一種可以用可伸縮的方式為人群交互建模的方法。
描述了機器人如何利用這些知識影響人類團隊。

人類群體的潛在結構

與為群體中的每個個體建模不同，我們的核心思想是關注個體之間的建模關系。當在群體中互動時，我們不再孤立地行動，而是根據他人的行動有條件地行動。這些依賴關系提供了一種結構，我們可以使用這種結構來形成對他人的期望，并據此行事。在更大的范圍內，這允許我們發展出規范、慣例，甚至文化。這些依賴關系對機器人很有用。因為它們提供了豐富的信息源，可以幫助機器人建模和預測人類行為。我們稱這些依賴關系為潛在結構。

日本(左)和印度(右)形成了不同的駕駛文化。

潛在結構的一個重要例子是領導和跟隨行為。我們可以很容易地組成團隊，并決定是否應該跟隨或帶領團隊高效地完成任務。例如，在搜救任務中，一旦發現目標的新信息，人類就能自發地成為領導者。我們還默默地協調領導和跟隨策略。舉個例子，當司機開車時，他們會跟隨對方穿過車道。在工作中，我們將重點建模潛在的引導和跟隨結構，并將它作為一個運行示例。

在搜救任務中，志愿者之間潛在的領導和跟隨結構的例子(左圖)，以及車輛在交通中相互跟隨的例子(右圖)。

那么我們該如何對這些潛在結構進行建模呢?理想模型應該具有哪些性質呢?在討論如何建立潛在結構模型之前，讓我們先確定一些必備要素?

復雜性：由于這些結構通常是隱式形成的，我們的模型應該足夠復雜，能夠捕獲個體之間的復雜關系。
可伸縮性：模型應該能夠適應不斷變化的智能體數量。

潛在結構建模

簡單的情況

我們使用監督學習方法來估計兩個人類智能體之間的關系。回到必備要素的討論，這解決了復雜性的問題，因為使用基于學習的方法允許我們捕獲這對組合可能擁有的復雜關系。使用模擬器，我們可以要求參與者演示我們想要度量的期望關系，例如領導和跟隨。

我們將搜救任務抽象為一個游戲，其中目標代表潛在的幸存者位置。在下面的例子中，參與者被要求互相領導和跟隨，以便集體決定要達成的目標。與人有關的數據通常充滿噪音，很難大規模收集。為了彌補這個缺點，我們用模擬的人類數據擴充了我們的數據集。然后，我們將這些數據輸入神經網絡模塊。這些模塊經過訓練，可以預測前導關系和后導關系。這為我們提供了一個模型，可以評估每個智能體以及目標成為智能體的領導者的可能性。

擴大團隊規模

現在，我們如何給一個更大的團隊建模呢?使用上面的模型，我們可以通過計算所有智能體和目標之間成對關系的得分，將多個人類之間的關系表示為一個圖。每個描述的邊都有一個由我們訓練過的神經網絡分配的概率(概率在下面的圖中抽象出來)。

然后利用圖論算法對原始圖進行剪枝，得到最大似然圖。例如，我們可以貪婪地為每個智能體選擇權重最高的出邊(outgoing edge )。

剩下的圖中，粗體邊表示最有可能的邊。我們稱這個圖為領導者-追隨者圖(LFG)。

領導者-追隨者圖(LFG)。我們可以使用 LFG 來確定最有影響力的領導者，即擁有最多追隨者的智能體。

由于我們可以很容易地對實時變換的智能體數量進行建模，因此圖結構可以隨著智能體數量的變化而伸縮。例如，在下一個時間步長 $kth$ 中添加一個智能體所需要的時間與智能體程序的數量 $n$ 和目標的數量 $m$ 線性相關。在實踐中，這需要以毫秒為單位來計算。

我們的模型泛化后有多準確?

通過將領導者-追隨者圖所做的預測與真實落地的預測進行比較，來評估我們的模型泛化的準確性。用模擬數據和同時包含模擬和真實人類數據的數據(混合數據)進行訓練實驗。我們發現，訓練更多的智能體有助于模型的推廣。這表明，需要權衡使用較少的智能體進行訓練還是使用量較多的智能體進行訓練(這需要收集更多的數據)。

潛在結構對機器人有什么用?

機器人可以利用潛在結構來推斷團隊的有用信息。例如，在領導和跟隨的例子中，我們可以識別諸如智能體的目標或誰是最有影響力的領導者之類的信息。這些信息允許機器人識別對任務至關重要的關鍵目標或智能體。考慮到這一點，機器人可以采取行動來達到預期的結果。下面是機器人利用圖形結構影響人類團隊的兩項任務：

A.合作任務

在許多現實生活場景中，能夠帶領一組人實現目標是很有用的。例如，在搜救任務中，擁有更多幸存者位置信息的機器人應該能夠領導團隊。我們已經創建了一個類似的場景，其中有兩個目標，幸存者的潛在位置，以及一個知道幸存者所在位置的機器人。機器人試圖通過帶領所有隊友到達目標位置來最大化聯合效用。為了影響團隊，機器人使用領導者-跟隨者圖來推斷當前最有影響力的領導者是誰。然后機器人選擇采取最大化最具影響力的領導者實現最優目標的概率的動作。

在下面的圖中，綠色的圓圈代表位置(或目標)，橙色的圓圈代表模擬的人類智能體，黑色的圓圈代表機器人。機器人正試圖帶領團隊走向更理想的底部位置。我們將使用圖結構的機器人(上)與貪婪地瞄準最優目標的機器人(下)進行對比。

上方圖中，機器人向底部移動，并圍繞底部移動，這是最優的目標，目的是引導推斷出的領導者向目標移動。下方圖中，機器人直接朝底部目標前進，沒有任何積極影響隊友的企圖。

如果大多數人首先與底層目標發生沖突，機器人就會成功;如果大多數人與次優目標發生沖突，機器人就會失敗。下面是一個圖表，它記錄了使用圖形表示的機器人與使用其他基線策略的機器人的成功率。

超過100個合作游戲的成功率，其中n=4個玩家，目標不同

我們發現，在具有大量潛在目標的更困難的場景中，圖形表示是有用的。

B .對抗任務

機器人也可能想要阻止人類團隊達成集體目標。例如，想象一個奪旗游戲，一個機器人隊友試圖阻止對手奪旗。

我們創造了一個類似的任務，一個機器人想要阻止一個人類團隊達成目標。為了讓團隊陷入停滯，敵對型機器人使用領導者-追隨者圖來識別當前最有影響力的領導者是誰。然后，機器人選擇采取能夠引導其推斷出的最有影響力的領導者偏離目標的最大化概率的行動。下圖左邊顯示了機器人的動作示例。在右邊，我們展示了一個簡單策略的例子，一個機器人隨機選擇一個玩家，并試圖阻止它，但沒有成功。