目標驅動系統模式,能否成為實現人工通用智能(AGI)的關鍵?
自從人工智能誕生以來,研究人員們一直試圖通過讓機器人與人類玩游戲來測試機器系統的智能水平。人們通常認為,人類智慧的一大標志,就在于具備創造性思考的能力——考慮多種多樣的可能性,并在制定短期決策的同時牢記長期目標。如果計算機能夠像人類一樣解決困難的游戲,那么它們肯定可以處理更為復雜的任務。從上世紀五十年代出現的早期跳棋機器人,到如今得到深度學習技術加持的新AI,智能系統已經能夠在國際象棋、圍棋以及《DOTA》等游戲中擊敗全球頂尖人類選手。從這個角度來看,單純依靠解決謎題的能力來判斷機器智能水平的思路已經過時。要衡量AI的極限,我們還得找到更靠譜的方法。
因此,組織開發AI方案時采取的一大核心模式,正是目標驅動型系統模式。與其他AI模式一樣,這種形式的AI能夠解決一系列原本需要人類認知能力才能處理的常見問題。在這種特定模式下,機器的任務非常明確——找到解決問題的最佳途徑。具體問題可能是找到順利穿過迷宮的路徑、優化供應鏈或者優化駕駛路線與空閑時間。無論實際需求如何,我們對AI系統的期望都是通過反復試驗完成學習,并找到解決問題的最佳(即使直觀度很低)方法。
強化學習與實驗試錯學習
強化學習是目前使用比例不高、但卻最為有趣的機器學習形式之一。與監督學習方法(人類首先對數據做出標記,再由機器利用標記數據完成學習)或者無監督學習方法(由機器自主嘗試對信息進行分組與聚類,借此完成學習)相反,強化學習主要通過實驗試錯的方式進行學習,并在迭代當中不斷匹配環境反饋與總體目標,最終達成理想性能。
在不使用AI的情況下,組織需要依靠人類建立基于程序與規則的系統,借此指導軟件與硬件系統的運作流程。程序與規則雖然能夠有效管理資金、人員、時間以及其他多種資源類型,但往往存在嚴重的脆弱與僵化局限。這些系統的能力上限,被牢牢束縛在人類所制定規則的水平身上;換句話說,這類機器根本無法真正學習,而只是將人類智能以規則的形式重新理解,并借此保證系統的正常工作。
另一方面,目標學習型AI系統的規則數量非常有限,我們可以通過迭代幫助系統學會如何獨立工作。以此為基礎,AI能夠全面優化整個系統,而不必依賴于人類設定的易碎規則。目標驅動型系統在這方面證明了自己的價值,表明系統完全能夠從極具挑戰性的問題當中自行找到“隱藏規則”、并主效將其解決。也正因為如此,目標驅動型系統才在需要進行資源優化的領域當中迸發出巨大的能量。
AI技術能夠有效實現場景模擬與資源優化。通過將這種通用方法應用于學習當中,我們可以引導AI系統學會針對特定目標或方案的優化方向,并找出很多即使是擁有多年從業經驗的資深人類專家也難以發覺的解決方案。如此一來,盡管目標驅動型系統模式在普及度方面不及其他模式(例如識別、預測分析或者對話模式),但卻在眾多行業中顯示出巨大的發展潛力。
在金融領域,基于強化學習的目標驅動系統也在遍地開花。以“機器人咨詢”為例,這類方案通過自主學習發現眾多能夠滿足個人特定需求的儲蓄與投資計劃。目標驅動系統模式還能在控制交通信號燈系統方面發揮作用,找到最大程度保證流量通行能力的控制方式。供應鏈與物流行業也在使用此類系統尋求打包及配送貨物的最優方法。除此之外,訓練物理機器人、創造可指揮機器人行走及跳躍的算法等也都是目標驅動系統模式的理想施展舞臺。
目標驅動系統甚至被應用于電子商務與廣告宣傳當中,負責幫助客戶找到最佳商品價格并自動給出廣告展示區報價。目標驅動系統甚至在制藥行業中計算蛋白質折疊,并找到發現疾病的創新方法。這些系統能夠選擇最佳試劑與反應參數,設計出所需產品,這種強大的能力也使其成為高度復雜的藥物或治療流程中的新型資產。
目標驅動型系統模式能否成為實現人工通用智能(AGI)的關鍵?
實驗試錯是種行之有效的好辦法,而且很可能適用于幾乎一切問題。值得一提的是,DeepMind是一家致力于將機器智能變成現實的機構。該機構已經成功解決了一系列人們原本以為機器永遠無法解決的難題。在他們看來,強化學習型目標驅動系統很可能成為解鎖機器人終極形態的關鍵——這將是一臺能夠學習一切知識、完成任何任務的機器。“通用智能”的概念類似于人類大腦,這意味著人工通用智能不再像當前已經存在的真實AI系統那樣只能專注于狹窄的單一學習任務,而能夠學習到一切知識并將經驗心得從一個領域轉移到另一個領域——期間無需進行大量重新訓練。
DeepMind公司成立于英國,并于2014年接受了谷歌收購。他們希望突破目標驅動系統及其他AI模式的能力范圍,解決各類最復雜的機器智能問題。從設計專業級圍棋AI系統AlphaGo為起點,DeepMind方面又迅速開發出AlphaZero——后者能夠從零開始學習任何游戲,并快速獲得遠超一般人類的技術水平。以往AlphaGo需要幾個月才能學習完成的對弈技巧,如今基于強化學習的AlphaZero已經能夠在短短幾天之內完成。從零開始,以提高勝率作為唯一目標,AlphaZero在多達100款測試游戲中均將AlphaGo斬于馬下。
正如技術行業的從業者們樂于使用新興成果一樣,DeepMind也在努力將新的發現轉化為可能的實際應用。AlphaZero使用當時最尖端的技術創建而成,目前已經被用于推動神經科學及行為心理學等領域的研究。此外,人們還在利用這些技術開發強大的通用學習算法,也許人工通用智能領域的真正突破再有幾年就會初現端倪。
對整個人工智能行業來說,機器學習可以算是發展過程中的十字路口。目前,使用范圍最廣的算法主要負責解決重要但相對簡單的問題。盡管機器已經證明了自己有能力識別圖像、理解語音、發現模式、識別異常并做出預測,但這類算法在精確完成任務之前仍然需要大量訓練數據與狹窄的學習任務作為基礎。在這種情況下,機器學習需要耗費大量數據以及可觀的計算資源。如果想要解決的任務足夠復雜,那么大家可能需要準備PB甚至更高數量級的訓練數據、投入數十萬美元租用GPU密集型計算資源并等待長達數個月時間。很明顯,單靠這樣的暴力手段,我們永遠不可能實現人工通用智能。
目標驅動型系統模式屬于當前七大主流AI模式當中使用頻率最低的一種,但卻也是最有可能突破數據與計算密集型樊籬的關鍵。好消息,是,如今目標驅動型系統正越來越多地在具有實際用例的項目中得到實施。憑借著光明的發展前景,它也成為其中最有趣、最值得期待的模式之一。