強化學習能否在2020年取得突破？

作者：Bill Vorhies 2020-01-23 15:33:07

新聞人工智能

強化學習對于實現我們的人工智能 / 機器學習技術的目標來說至關重要，但現在我們還有一些障礙需要克服。

強化學習對于實現我們的人工智能 / 機器學習技術的目標來說至關重要，但現在我們還有一些障礙需要克服。盡管可靠性和減少訓練數據的目標在一年內就可能實現，但是，強化學習本質上是一種“黑盒”解決方案，其缺乏透明度的特性會帶來很多質疑。

傳統的機器學習乃至深度學習的監督及非監督學習，是企業目前在人工智能 / 機器學習領域進行大量投資并從中獲取回報的核心領域。但事實是，這些技術目前已經相當成熟，收益曲線也日趨平坦。

如果我們要在人工智能 / 機器學習領域尋找下一個突破技術，那么幾乎可以肯定的是，這個突破將來自強化學習。在強化學習領域需要投入大量的努力，但是平心而論，強化學習還沒有達到必要的標準化水平，尚不足以成為為商用化準備就緒的工具。

在游戲領域已經有相當多值得報道的成功案例（如 Alpha Go），在無人駕駛領域也有一些成功案例。但盡管在解決涉及系列決策的問題時，強化學習應該是我們的首選技術，可它還沒有達到我們所需要的水平。

在我們的上一篇文章中，我們強調了兩個阻礙強化學習的缺點，這正是微軟強化學習領域的首席研究員 Romain Laroche 所描述的：

“它們基本上是不可靠的。更糟糕的是，由于強化學習過程中的隨機性，使用不同隨機種子的兩次運行的結果可能非常不同。”

“它們需要數十億的樣本才能獲得結果，而在現實世界的應用中提取如此天量的樣本是不可行的。”

我們專注于一些有希望的研究，這些研究用少得多的數據、有限的財務投入和實際約束解決了訓練問題。然而，剩下的問題甚至更加復雜。

由于強化學習解決方案是用隨機種子啟動的，因此，它們本質上是對狀態空間的隨機搜索。設想一下，兩個啟動算法隨機進入這個潛在解決方案的巨大叢林，目標是找到最快的出路。盡管這兩個解決方案可能達到相同的性能級別，但是，強化學習是眾所周知的黑盒，它使我們無法了解系統為何及如何選擇執行這一系列步驟。

Gartner 最近的報告《2020 年 10 大戰略技術趨勢》中提到的兩個互相矛盾的目標，突顯了其重要性。

引起我們注意的兩個趨勢是：

趨勢 8：智能設備（Autonomous things）

“智能設備，包括無人機、機器人、船舶和家用電器，利用人工智能代替人類完成任務。該技術在半智能到完全智能的智能范圍內運作，并能在包括天空、海洋和陸地等各種各樣的環境中運作。智能設備也將從獨立的設備向協作的集群轉變，例如在 2018 年冬季奧運會上使用的無人機群。”

該報告沒有提到的是，要實現這一點將需要強大而可靠的強化學習。盡管有一些非常震撼人的機器人（想想 Boston Dynamics 公司吧）主要依靠物理運動的算法，而不是人工智能 / 機器學習技術，但行業需要強化學習才能走進下一個發展階段。

而第 2 個趨勢對強化學習來說將更加困難。

趨勢 5：透明度和可追溯性

“技術的發展正在制造信任危機。隨著消費者越來越關注自身信息被收集和使用的情況，各種組織也意識到存儲和收集這些數據時所肩負的責任越來越大。”

“此外，人工智能和機器學習越來越多地用于代替人類做出決策，從而演變出信任危機，并推動了對可解釋的人工智能和人工智能治理等理念的需求。”

盡管我們很可能想到 GDPR 以及圍繞著電子商務的隱私問題，但事實是，基于我們對人工智能 / 機器學習如何做出決策的理解，這些技術終將受到挑戰。

尤其是考慮到強化學習政策制定的隨機性，以及兩個成功的強化學習程序可以以完全不同的方式實現相同的目標，這將是一個難以克服的挑戰。

應對可靠性問題

Romain Laroche 提出了兩種技術，有望解決可靠性問題。在其論文中，一個使用集成方法（EBAS），而另一個使用調整微調參數條件風險值（Conditional value at Risk，簡稱 CvaR，即最差運行的平均值），這兩種技術都能提高性能并減少訓練時間，同時限制強化學習運行的自然趨勢，以在系統中找到及利用故障。如果實際投入生產，該系統可以導致成功的結果，但是包含某種形式的意外損害。后一種技術以 SPIBB 命名，SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的縮寫，即具有基線引導的安全策略改進。

該集成方法借鑒了機器學習中的相同概念，并且與遺傳算法選擇訓練過程中的搜索過程類似，從而得到了一些很好的結果。

å¼ºåŒ–å¦ä¹ èƒ½å¦åœ¨2020å¹´å–å¾—çªç ´ï¼Ÿ

EBAS 算法學習速度更快，而且最終性能沒有任何下降。

透明度？

我們似乎正在解決可靠性問題以及另一個海量訓練數據的需求問題。這無疑將把我們引向透明度問題。比如，無人駕駛汽車在發生人員傷亡后所受到的審查。對比人類操作人員犯錯，我們對機器犯錯的容忍度更低。

毫無疑問，強化學習將在 2020 年做出重大貢獻，但是，想要實現一個經過驗證的，商業上得到接受的方案所面臨的障礙，以及由于其缺乏透明性而帶來的阻力等問題，不太可能在一年內完全解決。

責任編輯：張燕妮來源： AI前線

AI 數據人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

強化學習能否在2020年取得突破？