AI破解古文字登Nature封面:修復缺失文字,精確地理位置書寫時間
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
最新一期的Nature封面,AI再度來到舞臺中央,這一次是在破譯古文字方面立功了。
這是一種基于Transformer架構的方法,由DeepMind、谷歌、牛津大學等多家研究機構聯合開發。
在單獨修復受損文本時,這種方法能達到62%的準確率。
在實際應用中,歷史學家單獨破譯某塊古希臘石碑的準確率本來只有25%,但在使用這一方法后一舉提升了近乎3倍,達到了72%。
不僅能修復文字,這一方法在地理歸屬的任務上也有71%的準確率,還能將古文字的書寫日期精確到30年以內。
目前,這一方法已經引起了不小的討論熱度:
現在已經有可以在線解析古希臘文字的網頁版,架構方法也已開源。
Transformer破譯古文字
這是一個叫做Ithaca的架構,以荷馬史詩《奧德賽》中的希臘島嶼命名。
Ithaca架構中的注意力機制能夠通過串聯輸入的單個字符、完整單詞的表征與順序位置來了解輸入文本的每一部分的位置,最終權衡不同的輸入對模型決策過程的影響。
完整架構由多個Transformer塊組成,每個Transformer塊都輸出一個經過處理的表征序列(Sequence of Processed Representations),其長度即輸入字符的數量。
其輸入隨后被傳遞給三個分別負責文字修復、地理歸屬、時間歸屬的任務頭,每個頭都由一個前饋的神經網絡組成,專門負責各自任務的訓練。
在文字修復任務中,Ithaca會提供20個按概率排列的解析結果預測:
地理歸屬的確定上,則會依據古歷史學中的84個區域中對輸入文本進行分類,將可能的區域預測類別通過地圖和柱狀圖展現:
日期歸屬任務同樣也通過分布預測的柱狀圖來展示。
如下圖所示,公元前300-250年的日期10年一組,被表示為5個概率相同的范圍,而公元前305年的銘文將以100%的概率被分配到公元前300-310年的十年組:
歷史學家的AI助手
研究人員分別將Ithaca與歷史學家、同類AI方法Pythia、以及Ithaca與歷史學家合作等不同破解古文字的方法做了對比。
字錯率(CER)總是越低越好,在文字修復任務上,Ithaca的字錯率和準確率都最好,如果與歷史學家合作時,效果還將再次提升。
在論文的最后,研究人員表示,研究方法適用于手稿學、錢幣學和紙草學等所有與古代文本相關的學科,也適用于古代、現代的任何語言。
目前,這一方法已經投入了實際使用,比如在雅典時期頒布的某個重要法令的碑文的日期確認上,歷史學家們之前認為是在公元前446/5年之前書寫的。
而Ithaca與歷史學家一起,將這一日期更新到了公元前424/3 年:
Ithaca現在提供了在線試用的途徑,登錄官網,在方框中中輸入古希臘銘文,將缺少的字符標記為破折號(-)),將預測的字符標記為問號(?)。
每次查詢最多可以預測10個連續或非連續的問號,點擊查詢后將在下方顯示文本缺失的字符,并將其歸屬到原來的地點和時間:
作者介紹
研究由DeepMind、威尼斯卡福斯卡里大學(Ca’ Foscari University of Venice)、哈佛大學、雅典經商大學 (Athens University of Economics and Business)、谷歌幾家AI團隊合作開發。
論文有兩位共同一作,其中annis Assael為DeepMind的AI部門的研究員,碩博都畢業于牛津大學,同時也是福布斯“30歲以下30名歐洲杰出科學家”之一:
共同一作Thea Sommerschield則是一位歷史學家,目前任威尼斯佛斯卡里大學的人文科學院,以及哈佛大學希臘研究中心的研究員,主要研究領域是將機器學習應用于研究古代地中海的書面文化。
論文:
??https://www.nature.com/articles/s41586-022-04448-z
開源鏈接:
??https://github.com/DeepMind/ithaca
在線試用:
??https://ithaca.DeepMind.com/?job=eyJyZXF1ZXN0SUQiOiJmYzUwNGY0NWNhZjJjZWMxZjIxZDA4YWVjNTdkMjEzMSIsImF0dHJpYnV0aW9uIjp0cnVlLCJyZXN0b3JhdGlvbiI6dHJ1ZX0%3D