成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

關于戰略人工智能的深度綜述

譯文 精選
人工智能
在本文中,我們將定義戰略性人工智能,探討它是什么,以及自1997年IBM的深藍擊敗卡斯帕羅夫以來,它是如何發展的。我們將嘗試了解一些模型的總體架構,此外還將研究大型語言模型(LLM)如何融入其中。

譯者 | 朱先忠

審校 | 重樓

本文將全面探索戰略性人工智能的概念、發展及相關博弈論理論,并對戰略人工智能的未來發展方向提出建議。

開場白

1997年5月11日,紐約市。

這是紐約市一個美麗的春日,天空晴朗,氣溫攀升至20攝氏度。洋基隊準備在洋基體育場迎戰堪薩斯城皇家隊,流浪者隊在麥迪遜廣場花園迎戰魔鬼隊。

一切似乎都平淡無奇,然而聚集在曼哈頓中城公平中心的人們即將體驗到真正獨特的體驗。他們即將見證這一歷史性事件:一臺計算機將首次在標準比賽條件下擊敗國際象棋衛冕世界冠軍。

代表人類的是加里·卡斯帕羅夫,他當時被公認為世界頂級國際象棋選手。代表機器的是深藍——IBM開發的國際象棋計算機。在比賽的最后一局和第六局,兩位選手都獲得了2.5分。今天將決出勝負。

加里一開始執黑棋,但一開始就犯了一個錯誤,并面臨深藍的強大而激進的攻擊。僅僅19步之后,一切就結束了。卡斯帕羅夫感到士氣低落,壓力重重,他認為自己的地位無法維持,于是辭職了。這是一個具有象征意義的時刻,許多人稱贊這是人與機器之間最重要的時刻之一。這一里程碑事件標志著人工智能發展的轉折點,凸顯了戰略人工智能的潛力和挑戰。

簡介

作者使用Canva Magic Studio生成的圖像

受生成式人工智能最近的進步以及我自己對大型語言模型及其戰略能力的實驗的啟發,我越來越多地思考戰略人工智能的問題。過去我們是如何嘗試處理這個話題的?在我們擁有一個更多面手的戰略人工智能代理之前,面臨哪些挑戰和需要解決的問題?

作為數據科學家,我們越來越多地為客戶和雇主實施人工智能解決方案。對于整個社會來說,與人工智能日益增長的互動使得了解人工智能的發展,特別是戰略人工智能變得至關重要。一旦我們擁有能夠在戰略環境中很好地操縱的自主代理,這將對每個人都會產生深遠的影響。

但是,當我們提及戰略性人工智能時,我們到底是什么意思呢?從本質上講,戰略性人工智能涉及機器做出決策,這些決策不僅考慮潛在的行動,還預測和影響他人的反應。這是關于在復雜、不確定的環境中最大化預期結果。

在本文中,我們將定義戰略性人工智能,探討它是什么,以及自1997年IBM的深藍擊敗卡斯帕羅夫以來,它是如何發展的。我們將嘗試了解一些模型的總體架構,此外還將研究大型語言模型(LLM)如何融入其中。通過了解這些趨勢和發展,我們可以更好地為自主AI代理融入社會的世界做好必要的準備。

定義戰略性人工智能

作者使用Canva Magic Studio生成的圖像

圍繞戰略人工智能的更深入討論始于對該主題的明確定義。

當我們在商業環境中考慮戰略時,我們往往傾向于將其與長期思維、資源分配和優化、對組織內部相互依賴的全面理解、決策與公司目的和使命的一致性等主題聯系起來。雖然這些主題很有用,但在處理人工智能和自主代理時,我通常更喜歡對戰略進行更具博弈論意義的定義。在這種情況下,我們將戰略性定義為:

“選擇一個行動方案,不僅要考慮你自己的潛在行動,還要考慮其他人對這些行動的反應,以及你的決定如何影響環境的整體動態,從而最大限度地提高你的預期回報。”

這個定義的關鍵部分是,戰略選擇不是在真空中發生的,而是在其他參與者的背景下發生的,無論是人類、組織還是其他人工智能。這些其他實體可能有相似或相互沖突的目標,也可能試圖采取戰略行動來促進自己的利益。

此外,戰略選擇總是尋求最大化預期回報,無論這些回報是金錢、效用還是其他價值衡量標準。如果我們想納入與戰略相關的更傳統的“商業”主題,我們可以想象,我們希望在10年后使公司的價值最大化。在這種情況下,為了制定一個好的戰略,我們需要采取“長期”的眼光,也可能考慮公司的“目的和使命”,以確保與戰略保持一致。然而,追求這些努力僅僅是戰略行動實際意義的結果。

戰略的博弈論觀點抓住了戰略決策的本質,因此讓我們清楚地定義了戰略人工智能的含義。從定義中我們可以看出,如果一個人工智能系統或代理要采取戰略行動,它需要具備一些核心能力。具體而言,它需要能夠:

  • 對其他代理進行建模(使用預測技術或概率推理;這些代理可以是來自人類、人工智能或組織的任何產品)。
  • 根據預期效用優化操作。
  • 在他們收集有關其他代理策略的新信息時,動態適應。

目前,還沒有一個眾所周知或公開的系統能夠在現實世界中以自主的方式執行所有這些操作。然而,鑒于人工智能系統的最新進展和LLM的迅速崛起,這種情況可能即將改變!

博弈論中的其他重要概念

作者使用Canva Magic Studio生成的圖像

在我們進一步討論戰略人工智能之前,回顧博弈論中的一些概念和想法可能是有用的。圍繞戰略人工智能所做的許多工作都以博弈論概念為基礎,使用博弈論中的定理可以證明某些屬性的存在,這些屬性使一些博弈和情況比其他博弈和情況更容易處理。它還有助于突出博弈論在現實世界情況下的一些缺點,并突出我們最好從其他方向尋找靈感的地方。

什么是博弈?

我們將博弈定義為一個由三個關鍵部分組成的數學模型:

  • 玩家:做出決策的個人或實體。
  • 策略:每個玩家可以采取的可能行動或計劃。
  • 回報:每個玩家根據所選策略獲得的獎勵或結果。

這種正式結構允許對戰略互動和決策過程進行系統研究。

有限與無限博弈

在談論博弈時,首先了解有限博弈和無限博弈之間的區別也是有意義的。

有限博弈有一組固定的玩家、定義好的規則和明確的終點。有限博弈的目標就是贏,這方面的例子包括國際象棋、圍棋、跳棋和大多數傳統的棋盤博弈。

另一方面,無限博弈沒有預先確定的終點,規則可以隨著時間的推移而演變。無限博弈的目標不是贏,而是繼續比賽。商業競爭或社會進化等現實世界場景就可以被視為無限的博弈。冷戰可以被視為一個無限博弈的例子。這是美國及其盟友(西方)和蘇聯及其盟友(東方)之間長期的地緣政治斗爭。沖突沒有固定的終點,策略和規則隨著時間的推移而演變。

子博弈

有時,我們可以在更大的博弈環境中找到更小的博弈。從數學上講,子博弈本身就是自包含的博弈,需要滿足一些不同的標準:

  • 子博弈是從玩家確切知道自己在游戲中的位置開始的。
  • 子博弈包括從那時起可能采取的一切行動和結果。
  • 子博弈涵蓋了與這些行動相關的所有參與者的知識和不確定性。

如果我們想象一棵代表整個博弈的大樹,我們就可以形象化一個子博弈。子博弈就像從某個點(節點)開始選擇這棵樹的一個分支,并包括從該點延伸的所有內容,同時確保任何不確定性都在這個分支中得到充分體現。

子博弈背后的核心思想使其對我們關于戰略人工智能的討論非常有用。原因主要是,玩家之間的一些無限博弈可能非常復雜,難以建模,而如果我們選擇在該博弈中查看較小的博弈,我們可以更成功地應用博弈論分析。

回到我們的例子,冷戰是一個無限的博弈,我們可以在這個背景下識別出幾個子博弈。下面是一些代表性的例子:

1962年古巴導彈危機:

  • 玩家:美國和蘇聯。
  • 戰略:美國考慮了從外交談判到軍事入侵的各種選擇,而蘇聯則不得不決定是拆除導彈還是升級對抗。
  • 回報:避免核戰爭,維護全球形象和戰略軍事定位。

柏林封鎖和空運(1948-1949):

  • 玩家:西方盟國和蘇聯。
  • 戰略:蘇聯封鎖了柏林,將盟軍趕出,而盟軍則不得不在放棄這座城市或通過空中補給之間做出決定。
  • 回報:控制柏林,展示政治決心,影響歐洲聯盟。

當然,盡管處理起來非常困難和復雜,但這兩個“子博弈”比整個冷戰更容易分析和制定應對措施。他們有一套明確的參與者,一套有限的策略和回報,還有一個更清晰的時間框架。這使得它們更適用于博弈論分析。

在戰略人工智能的背景下,分析這些子博弈對于開發能夠在復雜動態環境中做出最佳決策的智能系統至關重要。

雙人博弈

雙人博弈只是兩個玩家之間的博弈。例如,這可能是兩個棋手之間的博弈,或者回到我們的冷戰例子——西方對東方。游戲中只有兩名玩家的情形簡化了分析,但仍然可捕捉到基本的競爭或合作動態。博弈論中的許多結果都是基于兩人博弈。

零和博弈

零和博弈是博弈的一個子集,其中一個玩家的收益是另一個博弈玩家的損失。總收益保持不變,玩家之間存在直接競爭。

納什均衡與最優行為

納什均衡(NE)是一組策略,假設其他參與者保持不變,任何參與者都不能通過單方面改變自己的策略來獲得額外的利益。在這種狀態下,每個玩家的策略都是對其他玩家策略的最佳回應,從而導致穩定的結果,沒有玩家有偏離的動機。

例如,在游戲《石頭剪刀》(RPS)中,NE是所有玩家隨機玩石頭、布和剪刀的狀態,每個玩家都有相等的概率。如果你作為一名玩家選擇玩NE策略,你可以確保沒有其他玩家可以利用你的游戲,在雙人零和博弈中,可以證明你不會在預期中失敗,你能做的最糟糕的事情就是收支平衡。

然而,玩NE策略可能并不總是最佳策略,特別是如果你的對手以可預測的次優方式玩。考慮一個有兩個玩家A和B的場景。如果玩家B開始玩更多的紙,玩家A可以識別出這一點,并增加其玩剪刀的頻率。但是,B可以再次利用與A的這種偏差,從而改變策略并出更多石頭。

關于戰略性人工智能的關鍵要點

回顧博弈論概念,子博弈的概念似乎對戰略人工智能特別有用。在更大的背景下找到可能更小、更容易分析的博弈的能力,使應用已知的解決方案和求解器變得更加容易。

例如,假設你正在努力發展你的職業生涯,這可以被歸類為一個無限的博弈,很難“解決”,但突然間你有機會談判一份新合同。這個談判過程為你的職業生涯中的一個子博弈提供了機會,對于使用博弈論概念的戰略人工智能來說,這將更容易接近。

事實上,數千年來,人類一直在我們的生活中創造子博弈。大約1500年前,在印度,我們創造了現在被稱為國際象棋的起源。國際象棋對人工智能來說是一個相當大的挑戰,但也讓我們開始開發更成熟的工具和技術,可用于更復雜、更困難的戰略情況。

博弈中的戰略人工智能簡史

作者使用Canva Magic Studio生成的圖像

博弈為開發戰略性人工智能提供了一個令人驚嘆的試驗場。博弈的封閉性使其比開放式系統更容易訓練模型和開發解決方案技術。博弈有明確的定義;參與者是眾所周知的,回報也是如此。最早的里程碑之一是深藍,這臺機器擊敗了國際象棋世界冠軍。

早期里程碑:深藍

深藍是IBM在20世紀90年代開發的一臺下棋超級計算機。正如本文開始所述,1997年5月,它在六局比賽中擊敗了衛冕世界國際象棋冠軍加里·卡斯帕羅夫,創造了歷史。深藍采用了專門的硬件和算法,每秒能夠評估2億個國際象棋位置。它將暴力搜索技術與啟發式評估函數相結合,使其能夠比任何以前的系統更深入地搜索潛在的移動序列。深藍的特別之處在于它能夠快速處理大量的位置,有效地處理國際象棋的組合復雜性,并標志著人工智能的一個重要里程碑。

然而,正如加里·卡斯帕羅夫在接受萊克斯·弗里德曼采訪時所指出的那樣,深藍比其他任何產品都更像是一臺蠻力機器,所以可能很難將其定性為任何類型的智能。搜索的核心基本上只是試錯。說到錯誤,它比人類犯的錯誤少得多,據卡斯帕羅夫說,這是它難以被擊敗的特征之一。

復雜博弈的進步:AlphaGo

在深藍在國際象棋中獲勝19年后,谷歌DeepMind的一個團隊開發了另一個模型,這將為人工智能歷史上的一個特殊時刻做出貢獻。2016年,AlphaGo成為第一個擊敗世界冠軍圍棋選手李世石的人工智能模型。

圍棋是一種非常古老的棋盤游戲,起源于亞洲,以其高度的復雜性和大量的可能位置而聞名,遠遠超過了國際象棋。AlphaGo將深度神經網絡與蒙特卡洛樹搜索相結合,使其能夠有效地評估位置和規劃移動。AlphaGo推理的時間越長,它的表現就越好。

人工智能在人類專家游戲的數據集上進行訓練,并通過自我游戲進一步改進。AlphaGo的獨特之處在于它能夠處理圍棋的復雜性,利用先進的機器學習技術在以前被認為難以掌握人工智能的領域實現超人的表現。

有人可能會說,AlphaGo比深藍表現出更多的智慧,因為它具有深入評估棋盤狀態和選擇動作的卓越能力。2016年對陣李世石的比賽中的第37步就是一個經典的例子。對于那些熟悉圍棋的人來說,這是第五行的肩侵,最初讓包括李世石本人在內的評論員感到困惑。但后來很明顯,這一舉動是一場精彩的比賽,展示了AlphaGo將如何探索人類玩家可能忽視和無視的策略。

結合國際象棋和圍棋:AlphaZero

一年后,谷歌DeepMind再次成為頭條新聞。這一次,他們從AlphaGo學到了很多知識,并創建了AlphaZero,它更像是一個掌握國際象棋、圍棋和將棋的通用人工智能系統。研究人員能夠在沒有人類先驗知識或數據的情況下,僅通過自我游戲和強化學習來構建人工智能。與依賴于手工制作的評估函數和廣泛的開放庫的傳統國際象棋引擎不同,AlphaZero使用了深度神經網絡和一種將蒙特卡洛樹搜索與自學習相結合的新算法。

該系統從基本規則開始,通過與自己玩數百萬個游戲來學習最佳策略。AlphaZero的獨特之處在于它能夠發現創造性和高效的策略,展示了一種利用自我學習而非人類工程知識的人工智能新范式。

速度與戰略的融合:《星際爭霸II》

谷歌DeepMind團隊繼續在人工智能領域占據主導地位,將重點轉向了一款非常受歡迎的電腦游戲《星際爭霸II》。2019年,他們開發了一種名為AlphaStar(【參考文獻2】)的人工智能,能夠實現大師級游戲,在競爭排行榜上的排名高于99.8%的人類玩家。

《星際爭霸II》是一款實時戰略游戲,為DeepMind的團隊帶來了幾個新穎的挑戰。游戲的目標是通過收集資源、建造建筑和集結可以擊敗對手的軍隊來征服對手。這款游戲的主要挑戰來自需要考慮的巨大動作空間、實時決策、戰爭迷霧造成的部分可觀察性以及長期戰略規劃的需要,因為有些游戲可以持續數小時。

通過構建為以前的人工智能開發的一些技術,比如通過自我游戲和深度神經網絡進行強化學習,該團隊能夠制作出一個獨特的游戲引擎。首先,他們使用監督學習和人類游戲訓練了一個神經網絡。然后,他們用它來播種另一種算法,該算法可以在多智能體游戲框架中與自己對抗。DeepMind團隊創建了一個虛擬聯盟,在這個聯盟中,智能體可以探索彼此對抗的策略,并對占主導地位的策略進行獎勵。最終,他們將聯盟的策略組合成一個超級策略,可以有效地對抗許多不同的對手和策略。用他們自己的話說(【參考文獻3】):

“最終的AlphaStar代理由聯盟納什分布的組件組成;換句話說,是已經發現的最有效的策略組合,在單個桌面GPU上運行。”

深入了解Pluribus和撲克

我喜歡玩撲克,當我在特隆赫姆生活和學習時,我們每周都會有一場游戲,相當激烈!最后一個被戰略性人工智能超越的里程碑是撲克游戲。具體來說,是撲克游戲中最受歡迎的形式之一,6人無限注德州撲克。在這個游戲中,我們使用一副有52張牌的普通牌,游戲結構如下:

  • 翻牌前:所有玩家都會得到2張牌(底牌),只有他們自己知道牌值。
  • 翻牌:抽出3張牌并面朝上放置,以便所有玩家都能看到它們。
  • 轉牌:抽出另一張牌并面朝上放置。
  • 河牌:抽出最后一張第五張牌并面朝上放置。

玩家可以使用桌上的牌和手中的兩張牌來組成一手5張牌的撲克牌。在游戲的每一輪中,玩家輪流下注,如果一名玩家下注而其他人都不愿意跟注,游戲可以在任何一輪結束。

雖然學習起來相當簡單,但人們只需要知道各種玩家的層次結構,盡管幾十年來一直在努力,但事實證明,這個游戲很難用人工智能來解決。

有多個因素導致了解決撲克牌的難度。首先,我們有一個隱藏信息的問題,因為你不知道其他玩家有哪些牌。其次,我們有一個多人游戲設置,有很多玩家,每個額外的玩家都會成倍增加可能的互動和策略的數量。第三,我們有無限制的下注規則,這允許一個復雜的下注結構,一個玩家可以突然決定下注他的全部籌碼。第四,由于底牌、公共牌和下注序列的組合,我們的游戲樹復雜性非常大。此外,由于牌的隨機性、虛張聲勢的可能性和對手建模,我們的復雜性也很高!

直到2019年,Noam Brown和Tuomas Sandholm這兩位研究人員才最終破解了密碼。在《科學》雜志發表的一篇論文中,他們描述了一種新型的撲克人工智能——Pluribus——在6層無限制德州撲克中擊敗了世界上最好的玩家(【參考文獻4】)。他們進行了兩個不同的實驗,每個實驗由10000個撲克手組成,這兩個實驗都清楚地表明了Pluribus的主導地位。

在第一個實驗中,Pluribus與5名人類對手比賽,平均獲勝率為4800mbb/場,標準差為2500mbb/局。(mbb/game代表每場比賽中的每場百萬大盲注,即每1000場比賽中贏得多少個大盲注。)4800mbb/場被認為是一個非常高的獲勝率,尤其是在精英撲克玩家中,這意味著Pluribus比人類對手更強。

在第二個實驗中,研究人員讓5個版本的Pluribus對戰1個人。他們設置了這個實驗,讓兩個不同的人分別與5臺機器玩5000手牌。Pluribus最終以平均3200mbb/場的成績擊敗了人類,標準誤差為1500mbb/局,再次顯示了其戰略優勢。

Pluribus的統治地位非常驚人,特別是考慮到研究人員必須克服的所有復雜性。Brown和Sandholm提出了幾個聰明的策略,幫助Pluribus成為超人,在計算上比以前的頂級撲克AI更高效。他們的一些技術包括:

  • 使用兩種不同的算法來評估移動。他們將首先使用所謂的“藍圖策略”,該策略是通過使用蒙特卡洛反事實后悔最小化方法讓程序自我對抗而創建的。這種藍圖策略將在第一輪投注中使用,但在隨后的投注輪中,Pluribus會進行實時搜索,以找到更好、更精細的策略。
  • 為了使其實時搜索算法在計算上更高效,他們將使用深度限制搜索,并評估對手可能選擇的4種不同策略。首先,他們將評估每種策略的未來兩步。此外,他們只會為對手評估四種不同的策略,包括原始藍圖策略、偏向折疊的藍圖策略、傾向召喚的藍圖策略和偏向提高的最終藍圖策略。
  • 他們還使用了各種抽象技術來減少可能的游戲狀態的數量。例如,由于9高順子與8高順子基本相似,因此可以以類似的方式觀察它們。
  • Pluribus將連續投注空間離散化為一組有限的桶,從而更容易考慮和評估各種投注規模。
  • 此外,Pluribus還平衡了其策略,即對于它正在玩的任何給定手牌,它也會考慮在這種情況下可能擁有的其他手牌,并評估它將如何玩這些手牌,以便最終的游戲是平衡的,從而更難對抗。

從Pluribus中可以得出很多有趣的觀察結果,但也許最有趣的是,它并沒有改變對不同對手的打法,而是開發了一種強大的策略,對各種各樣的玩家都有效。由于許多撲克玩家認為他們必須根據不同的情況和人調整自己的游戲,Pluribus向我們表明,考慮到它如何擊敗所有與之對抗的人,這是不必要的,甚至可能不是最佳的。

在我們對博弈論的短暫探索中,我們注意到,如果你在雙人零和博弈中玩NE策略,你保證不會在預期中失敗。然而,對于像6人撲克這樣的多人游戲,沒有這樣的保證。諾姆·布朗推測,也許是撲克這種游戲的對抗性仍然適合嘗試用NE策略來接近它。相反,在像Risk這樣的游戲中,玩家可以更多地合作,追求NE策略并不能保證奏效,因為如果你和6個人玩一個風險游戲,如果你的5個對手決定聯合起來殺死你,你什么也做不了。

評估戰略人工智能的發展趨勢

總結博弈中戰略人工智能的歷史,我們看到一個明顯的趨勢正在出現。這些博弈正在慢慢但肯定地變得更接近人類每天所處的現實世界戰略環境。

首先,我們正在從雙人模式轉向多人模式。從雙人博弈的最初成功到6人撲克等多人博弈,都可以看出這一點。其次,我們看到對隱藏信息博弈的掌握有所增加。第三,我們還看到,對具有更多隨機元素的博弈的掌握程度有所提高。

隱藏信息、多人博弈設置和隨機事件是人類之間戰略互動的常態,而不是例外,因此掌握這些復雜性是實現能夠在現實世界中導航的更通用的超人戰略人工智能的關鍵。

大型語言模型與戰略性人工智能

作者使用Canva Magic Studio生成的圖像

我最近做了一個實驗,讓大型語言模型(LLM)互相玩棋盤游戲《風險》。我做這個實驗的目的是衡量LLM在戰略環境中的表現,更多的是開箱即用。向代理人提供了相當多的詳細提示,以提供正確的背景,然而,也許并不奇怪,LLM的表現相當平庸。

你可以在鏈接處找到一篇關于這個實驗的文章《在風險博弈環境中探索LLM的戰略能力》(在模擬的風險環境中,Anthropic、OpenAI和Meta的大型語言模型展示了不同的戰略……)

總結一下實驗中的一些關鍵發現,當前這一代的LLM在防御和識別獲勝動作等基本戰略概念上遇到了困難。它們也未能消除其他參與者,而這樣做在戰略上對它們有利。

上述實驗表明,盡管我們已經看到LLM的快速改進,但它們仍然缺乏戰略推理的復雜性。鑒于它們非常通用的訓練數據以及它們是如何構建的,這不應該令人驚訝。

那么,它們如何融入圍繞戰略人工智能的討論呢?要理解這一點,我們需要了解LLM真正擅長的是什么。也許LLM最有希望的特點是它們能夠消化和生成大量文本。現在有了多模式模型,視頻和音頻也是如此。換句話說,LLM非常適合在人類和其他環境中與現實世界互動。最近,Meta的一個人工智能團隊能夠將語言模型的通用語言能力與戰略引擎的戰略洞察力相結合。

案例研究:《西塞羅》與《外交》游戲

《外交》游戲是一個2到7人的策略游戲,Meta將其描述為風險、撲克和電視節目《幸存者》的混合體。玩家從1900年左右的歐洲地圖開始,目標是控制大多數供應中心。具體來說,玩家的目標是控制34個供應中心中的18個,以取得勝利。通過這樣做,玩家可以有效地控制地圖,代表了他們的國家在第一次世界大戰前對歐洲的優勢。

《外交》游戲與我們迄今為止討論的許多其他游戲的不同之處在于它依賴于玩家之間的談判。這是一種比撲克更需要合作的游戲形式。每個玩家在每次回合之前都會使用自然語言與其他玩家交流,并制定彼此結盟的計劃。當準備工作完成時,所有玩家同時透露他們的計劃,然后執行回合。這種類型的游戲顯然比大多數其他棋盤游戲更接近實際的外交和現實生活中的談判,但由于自然語言成分,人工智能很難掌握。

這種情況在2022年發生了變化,當時Meta的人工智能團隊開發了西塞羅(Cicero)。Cicero利用語言建模的最新進展,結合戰略模塊,是一個游戲引擎,能夠實現“人類玩家平均得分的兩倍以上,并在玩過多個游戲的參與者中排名前10%”。正如Meta所描述的那樣,他們的模型能夠產生基于戰略的對話,并生成一個具有對話意識的策略。

《西塞羅》與其他戰略AI模型的差異

《外交》游戲和其他一些我們最近在人工智能方面取得戰略進步的游戲之間有一些關鍵區別。最值得注意的是游戲的合作性質——與其他游戲的對抗性質相比——以及它使用的開放式自然語言格式。我認為這些差異使游戲更像真實的人際互動,但也限制了研究人員如何訓練為西塞羅提供動力的算法。

與Pluribus和AlphaZero不同,西塞羅主要不是通過自我游戲和強化學習來訓練的。相反,Meta團隊使用了一個包含125000多個游戲和40000000條消息的數據集來幫助訓練算法。他們認為,考慮到游戲的談判、說服和建立信任方面,如果他們讓人工智能通過自我游戲與自己談判,他們可能會看到奇怪的行為,而且它可能無法捕捉到人類互動的本質。引用他們的研究文章:

“…我們發現,在2p0s版本的游戲中實現超人性能的自玩算法在有多個人類玩家的游戲中表現不佳,因為學習的策略與潛在人類盟友的規范和期望不一致。”

然而,強化學習被用來訓練策略引擎的一部分,特別是用來訓練西塞羅的價值函數——它需要預測其行為的效用。研究人員使用了行為克隆的改進版本piKL,該版本旨在最大限度地提高動作的預期效用,同時盡量減少與人類行為的差異。簡而言之,他們希望該模型能夠找到具有戰略意義的合理動作,同時保持與人類動作的接近。

外交的上述特征突出了與創建可以在現實世界的人類環境中運行的戰略人工智能相關的一些重要問題,在我們評估戰略人工智能將如何發展時需要考慮這些問題。

戰略人工智能的未來

作者使用Canva Magic Studio生成的圖像

預測未來總是很棘手;然而,一種方法可以是利用當前的趨勢并推斷出未來的情景。下面,我們調查了一些與我們之前的討論密切相關的話題,并評估了它們如何影響戰略人工智能的未來。

通用符號策略引擎與專用模塊

如果我們研究迄今為止戰略AI引擎的發展軌跡,我們會發現每個游戲引擎的專業性都令人印象深刻。盡管架構可能相似(例如AlphaZero學習如何玩多種不同的游戲),但AI仍然會針對每款特定游戲與自己進行數百萬次游戲。對于國際象棋,AlphaZero玩了4400萬場,而對于圍棋,玩了1.3億場!(【參考文獻7】)一個自然而然的問題是,我們是否應該嘗試構建更通用的策略引擎,還是繼續專注于特定任務的專用模塊?

通用策略引擎旨在理解和應用不同情況下的廣泛戰略原則。也許通過創建能夠捕捉人類戰略互動許多方面的游戲,AI可以通過與自己對弈來學習并制定適用于現實世界場景的策略。這種方法可以幫助AI概括其學習,使其在各種情況下都很有用。

另一方面,專用模塊是為特定場景或任務設計的人工智能系統。我們可以設想,通過結合多個專業代理,我們可以創建一個通用的戰略人工智能。人工智能代理經過訓練,可以在每個特定領域都表現出色,在最需要的地方提供深厚的專業知識。雖然這種方法可能會限制人工智能的泛化能力,但它可以確保特定領域的高性能,從而更快地實現實際應用。

考慮到在合作環境中使用AI進行自我游戲的問題(正如我們在外交中觀察到的那樣),以及目前的趨勢似乎傾向于針對不同戰略情況使用專用模塊,在不久的將來,我們可能會為不同的環境提供專用戰略模塊。然而,我們也可以設想一個混合系統,在這個系統中,我們使用通用戰略引擎來提供對更廣泛主題的洞察,而專用模塊則處理復雜、具體的挑戰。這種平衡可以讓AI系統應用一般戰略洞察,同時適應特定情況的細節。

LLMs彌合戰略模塊和現實世界應用之間的差距

大型語言模型改變了人工智能與人類語言的交互方式,提供了一種將戰略人工智能模塊與現實世界用例連接起來的強大方式。LLM擅長理解和生成類人文本,使其成為理想的中介,可以將現實世界的情況轉化為戰略引擎可以處理的結構化數據。正如Meta的《西塞羅》游戲所示,將LLM與戰略推理相結合,使人工智能能夠理解人類在協作環境中的溝通、協商和計劃行動。

鑒于當前多模態模型的趨勢,LLM不僅能夠將文本,而且能夠將任何現實世界的上下文翻譯成機器可讀的語法。這使得模型作為中介更有用。

如果我們以《西塞羅》游戲的想法為基礎,我們還可以設想為特定任務(如外交溝通)微調不同的語言模型,也許是通過微調歷史外交信函的模型,然后訓練單獨的戰略引擎來提出最佳行動。

人類與人工智能的協作:Centaur模型

戰略人工智能的未來不僅僅是機器接管決策;在過渡時期,這也是人類和人工智能有效合作的問題。這種合作關系通常被稱為“半人馬模型”,將人類直覺與人工智能的計算能力相結合。在這個模型中,人類帶來了創造力、道德判斷和靈活性,而人工智能系統提供了強大的數據處理和戰略原則的一致應用。

這種模型的現實世界例子包括人類人工智能團隊超越人類或單獨工作的機器的領域。例如,在國際象棋中,加里·卡斯帕羅夫提出了與人工智能合作的想法,將人類的戰略洞察力與人工智能的精確計算相結合。半人馬模型似乎在國際象棋中運行良好,直到程序開始變得非常好。在那一點上,人類的貢獻毫無價值,在最壞的情況下是有害的。

然而,在比國際象棋更開放、更像現實世界的其他領域,半人馬模型可能是一個不錯的選擇。簡單地考慮一下,人類與現代LLM的合作如何有可能大大提高生產力。

這種協作方法通過將人類判斷與人工智能分析相結合來改善決策,可能會帶來更明智和平衡的結果。它允許快速適應新的和意外的情況,因為人類可以在人工智能的支持下實時調整策略。

游戲之外的現實世界應用

游戲一直是開發戰略性人工智能的絕佳試驗場,但真正的影響來自將這些進步應用于現實世界的挑戰。下面我們重點介紹幾個例子。

在過去幾年中,自動駕駛汽車領域取得了巨大的發展,以及它們如何利用戰略性人工智能安全地駕駛道路。他們必須預測并響應其他司機、行人和騎自行車的人的行為。例如,自動駕駛汽車需要預測行人是否即將過馬路,或者另一名駕駛員是否即將意外變道。

就在今年,Waymo——一家開發自動駕駛汽車和叫車服務的公司——開始在美國三個城市使用完全自動駕駛的出租車:亞利桑那州的鳳凰城,以及加利福尼亞州的洛杉磯和舊金山。在未來幾年,由于戰略人工智能的改進,我們可能會看到全自動駕駛汽車的大幅增長。

在金融市場中,人工智能驅動的交易系統分析大量數據以做出投資決策。這些系統考慮了其他市場參與者(如交易員和機構)的可能行為,以預測市場走勢。他們使用戰略推理來執行交易,以最大限度地提高回報,同時最大限度地降低風險,通常是在高度動蕩的環境中。

人工智能系統還通過考慮供應商、競爭對手和客戶的行為來優化供應鏈。他們可以根據預期的需求和競爭對手的行為,戰略性地調整生產計劃、庫存水平和物流。例如,如果競爭對手預計將推出新產品,人工智能可以建議增加庫存水平以滿足潛在的需求增長。

戰略人工智能也被用于高效管理能源分配。智能電網利用人工智能來預測消費模式并相應地調整供應。他們考慮消費者如何根據定價信號或環境因素改變使用方式。人工智能戰略性地分配資源以平衡負載、防止中斷和整合可再生能源。

上面的例子清楚地表明了戰略性人工智能是如何被整合到各個行業和領域的。通過考慮他人的行為,這些人工智能系統可以做出明智的決策,優化結果,提高效率,并經常提供競爭優勢。隨著戰略性人工智能的不斷改進,這些系統也將不斷改進,我們可能會看到它們在許多其他領域的出現。

結論

作者使用Canva Magic Studio生成的圖像

自從深藍戰勝加里·卡斯帕羅夫以來,戰略人工智能已經取得了長足的進步。從掌握復雜的棋盤游戲到參與類似人類的談判,人工智能系統越來越多地表現出戰略推理能力。

在本文中,我們研究了戰略人工智能的基本概念,強調了博弈論的重要性以及該領域的一些概念如何應用于戰略人工智能。我們還研究了專門的人工智能系統如何通過專注于狹窄的領域和廣泛的自我游戲,在特定的游戲中取得超人的表現。這就提出了一個問題,即戰略人工智能的未來是開發能夠更廣泛應用的通用符號戰略引擎,還是繼續開發針對特定任務量身定制的專用模塊。

正如我們在《西塞羅》游戲身上看到的那樣,語言模型在戰略人工智能領域也可能有未來。OpenAI、Anthropic和Meta等提供商的新模型使將這些工具集成到自主代理中比以往任何時候都更容易,這些代理可以使用它們將現實世界轉換為人工智能系統可以處理的結構化數據。

然而,通往能夠駕馭現實世界復雜性的通用戰略人工智能的旅程才剛剛開始。在開發能夠跨領域推廣、適應不可預見的情況并將倫理考慮納入決策過程的系統方面仍然存在挑戰。

參考文獻

1. Lex Fridman(2019年10月27日)。《Garry Kasparov: Chess, Deep Blue, AI, and Putin | Lex Fridman Podcast #46 [Video File]》。Youtube:https://youtu.be/8RVa0THWUWw?si=1ErCnwlAn4myoK9W

2. Vinyals, O., Babuschkin, I., Czarnecki, W.M.等人。《Grandmaster level in StarCraft II using multi-agent reinforcement learning》。《自然》雜志,2019年,第575,350–354頁。網址:https://doi.org/10.1038/s41586-019-1724-z

3. https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/

4. Brown等人,(2019年8月30日)。《Superhuman AI for multiplayer poker》,《科學》雜志,2019年,第365,885–890頁。網址https://www.science.org/doi/epdf/10.1126/science.aay2400

5. Lex Fridman(2019年12月6日)。《Noam Brown: AI vs Humans in Poker and Games of Strategic Negotiation | Lex Fridman Podcast #344 [Video File]》。Youtube:https://youtu.be/2oHH4aClJQs?si=AvE_Esb42GNGIPRG

6. Meta Fundamental AI Research Diplomacy Team (FAIR)?等,《Human-level play in the game of Diplomacy by combining language models with strategic reasoning》,《科學》雜志,2022年,第378,1067–1074頁。DOI:10.1126/science.ade9097,https://noambrown.github.io/papers/22-Science-Diplomacy-TR.pdf

7. David Silver等人,《A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play》。《科學》雜志,2018年,第362,1140–1144頁。DOI:10.1126/science.aar6404,網址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphazero-shedding-new-light-on-chess-shogi-and-go/alphazero_preprint.pdf

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:When Machines Think Ahead: The Rise of Strategic AI作者:Hans Christian Ekne

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2021-03-10 14:46:20

人工智能

2017-05-08 15:36:09

2021-01-26 10:23:06

人工智能人工智能技術

2020-11-15 20:00:21

人工智能AI

2023-11-07 15:01:57

人工智能民主化

2021-04-07 10:48:45

人工智能深度學習

2017-05-04 20:45:07

人工智能數據科學機器學習

2023-07-26 09:00:00

人工智能AI檢測

2022-04-27 10:23:20

人工智能首席信息官

2022-03-18 16:11:29

人工智能數據中心AI

2021-04-07 10:52:35

人工智能深度學習

2023-06-30 11:08:13

AI人工智能

2022-11-25 07:35:57

PyTorchPython學習框架

2022-06-20 11:05:58

通用人工智能機器人

2024-03-14 08:00:00

人工智能生成式對抗網絡網絡釣魚

2018-04-14 08:15:32

2021-05-11 11:26:18

人工智能自然語言機器人

2022-03-14 10:20:15

人工智能學習高效

2021-04-15 08:00:00

人工智能數據技術

2023-10-17 10:20:23

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久福利电影 | 亚洲国产精品一区二区www | 国产一区二区免费在线 | 永久免费在线观看 | 九九色综合 | 国产做爰 | 欧美精品一区二区三区在线四季 | 日韩欧美中文在线 | 国产在线精品一区二区三区 | 精品一区二区三区四区在线 | 在线色网 | 久久久在线视频 | 自拍视频网 | 99精品福利视频 | 国产精品福利久久久 | 久久久久国产一区二区三区 | 色999视频 | 国产精品123区 | 欧美a级成人淫片免费看 | 91视频在线| 久久人人国产 | 天天射网站 | 午夜欧美| 一级片在线观看 | 日韩一级欧美一级 | 久久免费视频1 | 国产精品一区二区久久 | 日韩精品免费 | 在线播放亚洲 | 国产精品国产精品国产专区不蜜 | 欧美一区二区在线免费观看 | 色爱综合网 | 亚洲一区二区三区四区五区午夜 | 91爱爱·com | 91在线精品一区二区 | av网站免费观看 | 国产一级毛片精品完整视频版 | 欧美国产日韩一区 | 国产精品视频免费观看 | 99热在线观看精品 | 96国产精品久久久久aⅴ四区 |