碳基生物慘遭淘汰!AI在縱橫字謎中首次獲得勝利
有1000多名參與者參加了在上周舉行的虛擬填字游戲「美國縱橫字謎錦標賽」(American Crossword Puzzle Tournament),其中有一位令人印象深刻的競爭對手。
而人工智能則在填字游戲競賽中首次超越人類。
最新的AI進步不僅顯示了對自然語言進行計算理解的潛力,而且,通過仔細研究一個軟件如何試圖打破惡魔般的填字游戲線索,就可以使我們對使用語言玩游戲時大腦的行為有新的見解。
硅基隊伍的又一次勝利!
對于填字游戲機器人Dr. Fill來說,這是與碳基玩家競爭了近十年后的一場重大的勝利。
Dr. Fill是由計算機科學家Matt Ginsberg制作的,這位科學家同時也是填字游戲的制作者。
自從2012年,Dr. Fill就開始非正式地參加美國填字游戲競賽,每年對軟件進行逐步改進。而今年,Ginsberg則與伯克利自然語言處理小組合作,該小組由加州大學伯克利分校教授Dan Klein指導的研究生和本科生組成。
Klein和他的學生們從2月開始研究該項目,之后便與Ginsberg取得聯系,看看能否在今年的比賽中將他們的成果相結合。在錦標賽開始前兩周,他們共同完成了一個混合系統,其中,伯克利小組的神經網絡算法(用于解釋線索)與Ginsberg的代碼(填充填字游戲網格)協同工作。
新的經過改進的Dr. Fill看似在填字時一陣忙亂,但是實際上,程序的運行是有條不紊的,它會分析線索并給出答案的候選詞的初始排名列表,然后根據諸如與其他答案的匹配程度等因素來縮小可能性。正確的答案可能會深深地埋在候選列表中,但是足夠的上下文可以使它逐步浮現出來。
Dr. Fill的訓練數據是收集到的以往在各種渠道出現的填字游戲。為了解決難題,該程序引用了已經「看到」的線索和答案。像人類一樣,Dr. Fill在面對新挑戰時,必須依靠過去所學到的知識,尋找新舊經驗之間的聯系。
例如,由《華爾街日報》填字游戲編輯Mike Shenk構建的競賽的第二個題目,是根據一個主題,即長答案后加上字母-ITY來構成新的幻想短語。
Dr. Fill很幸運,因為盡管有一些不尋常的用語,但一些答案卻出現在2010年《洛杉磯時報》上同樣主題的填字游戲中,Ginsberg在他的數據庫中包含了超過800萬條線索和答案。但是填字游戲錦標賽的線索卻完全不同,而Dr. Fill仍然面臨著找出正確答案的挑戰。
Dr. Fill?Dr .「Kill」!

對于所有答案,無論是否是游戲主題的一部分,該程序都會嘗試成千上萬種可能性,以生成與線索最匹配的候選詞,并根據可能性對它們進行排名,并根據網格的約束對其進行檢查。有時,排名最高的候選詞就是最合適的:例如,對于「imposing groups」這個線索,Dr. Fill將正確的答案「ARRAYS」列為首選詞。「imposing」一詞從未出現在該詞的線索中,但出現過其他同義詞,如「impressive」,這使Dr. Fill可以推斷出語義上的聯系。

交叉字母通常有助于縮小候選者的范圍,因此,在五個字母的答案中,知道第二個字母是O,答案的線索是「噢,太可惜了!」,這樣便可以找到正確的答案「SO SAD」,使其升到列表的頂部。

涉及雙關語或其他文字游戲的線索通常會非常棘手,通常會帶有問號。在這個題目中,「PERISCOPE」得到了線索「Sub standard?」,一開始迷惑了Dr. Fill。它的主要猜測是「sub」與三明治有關,因此它提出了「TUNA ON RYE」之類的候選詞。不過,通過伯克利的神經網絡系統便能夠識別出帶有問號線索的異常情況。Klein解釋說,雖然沒有明確教導問號會存在某種語義上的把戲,但通過機器學習,它可以逐漸推測它需要尋找比常規線索要不那么直接的選項。
最終,Dr. Fill能夠在一分鐘內解決填字游戲,比任何人類競爭對手都要快整整兩分鐘。
但是,它并不是對所有題目都完美無缺:它沒能做出其中的兩個,并在結束時存在錯誤。盡管受到了得分處罰,但Dr. Fill的驚人速度足以讓他在七個題目之后位列排行榜榜首,領先于最快的人類競爭對手。
碳基生物已經完敗了嗎?
自1978年成立以來一直監督年度錦標賽的《紐約時報》填字游戲編輯Will Shortz指出,今年的錦標賽題目可能發揮了Dr. Fill的優勢,因為“每個答案都是從左到右和從上到下的可被理解英語閱讀 。
”Shortz還表示,“Dr. Fill的編程如此精巧,以至于它能很好地解決十分困難且棘手的猜字游戲”,不過他已然認為碳基隊已然在許多方面仍具有優勢。“目前,人類仍然更擅長處理諸如填字游戲之類的混亂,非邏輯的現實世界問題。而Dr. Fill依然會被某些不會出現在人類身上的方式所難倒。”
隨著機器學習的進步以及為該計劃提供更多題目和訓練數據,Dr. Fill在未來幾年中可能會獲得更好的成績。然而,Klein看到的更多是經常出現在自然語言處理領域的挑戰。
例如,人類的大腦經常進行所謂的“多跳閱讀理解”,將不同的知識點組合成一連串的推理。而正如Dr. Fill對「sub」這個線索的困惑所證明的那樣,其“大腦”仍難以辨認具有可替代性的,較不常見的含義。例如,紐約時報在填字游戲的線索中的誤導:「King-like, in a way」。
答案是「MACABRE」,因為這里的「King」是指小說家「Stephen King」(斯蒂芬·金)。
Klein將Dr. Fill視為如何能夠從字謎最隱秘的線索中解開含義的第一步。當涉及到特別狡猾的語言樣本時,例如涉及推理鏈的樣本,Klein表示:「那些把人們難住的樣本可能會更加使這種系統陷入困境」。
填字游戲將繼續展現其對AI獨特的挑戰,因為其證明了語言不僅僅意味著簡單的交流,而且是一種典型的人格特質。