AI破譯2000年前「上古卷軸」登Nature頭版!21歲計算機天才,谷歌華人工程師共獲大獎
2000年前碳化的古卷軸,如今成功被AI破譯!背后三人團隊還拿下70萬美元大獎!
AI在考古領域的重大進步,甚至登上了今天Nature的頭版。
要說這件事的起源,還得追溯到公元79年一次火山爆發, 直接將一座珍藏古老的紙莎草卷軸——Herculaneum Papyri的圖書館埋葬。
而這些卷軸,直到18世紀才被挖出,卻早已成為炭焦的木塊。由于太過脆弱,根本無法輕易展開。
今天,正式獲獎的作品,展示了超過15欄的數百個單詞,相當于整個卷軸的5%的內容。
值得一提的是,三人拔得頭籌的團隊中,有一位年僅21歲計算機天才少年Luke Farritor,成功用AI從圖像裂縫中破譯內容。
當時,他還在SpaceX暑期實習,偶然發現這場挑戰賽的英雄貼。
另外,這場AI破譯卷軸的大賽還有3個團隊獲得亞軍,包括一位谷歌華人工程師單獨獲5萬美元大獎。
從破譯文字轉錄后可以讀出,古代哲學家對「如何享受生活」「快樂」的探討與爭辯,還揭示了人們對音樂和冒險的沉思。
這一壯舉為AI完整破譯其余古卷鋪平了道路,研究人員表示,這可能會對我們對古代世界的理解產生革命性的影響。
谷歌DeepMind的首席執行官:我迫不及待地想閱讀這些被認為已經失傳的古籍!
2000年后,我們終于可以閱讀卷軸了!
下圖3D還原了,巖漿吞噬圖書館的情境。
這些卷軸在公元79年維蘇威火山的爆發中被碳化
直到18世紀,這些卷軸被挖掘出來。
目前,有800多卷被保存在意大利那不勒斯的一個圖書館中。
一位藝術家對珍藏卷軸圖書館的渲染
然而,這些碳化的卷軸無法在不損害的情況下展開。
一份卷軸不同的拍攝視角,看得出已經完全碳化,像一個木頭塊。
當任何人嘗試展開卷軸,結果就是支離破碎。
那么,問題來了,我們該如何閱讀這些卷軸?
2023年3月15日,Nat Friedman、Daniel Gross和Brent Seales發起了Vesuvius Challenge,就是為了解決這一世紀難題。
十個月前,我們發起了Vesuvius Challenge,旨在解決赫庫蘭尼姆莎草紙書卷這一古老問題。這是一批在公元79年維蘇威火山爆發時被高溫烤焦的莎草紙卷軸圖書館。
今天,我們欣喜若狂地宣布,我們瘋狂的項目成功了。2000年后,我們終于可以閱讀卷軸了!
這場挑戰賽,要求參賽者在卷軸的4平方厘米區域內,至少找到10個字母。
最誘人的是,挑戰賽為成功破譯者提供超100萬美元的獎金。
來自法國科學院的卷軸在牛津附近的Diamond Light Source粒子加速器進行了成像,然后公布了這些卷軸的高分辨率CT掃描圖像。
以藝術化的方式構建3D卷軸
古卷是如何展開的?
大體說,虛擬展開卷軸分三個步驟進行:
- 掃描:利用X射線斷層掃描技術對卷軸或碎片進行3D掃描。
- 分割:在3D掃描圖像中追蹤卷曲的紙莎草層,隨后將其展開或鋪平。
- 墨跡檢測:借助機器學習模型,識別鋪平后段落中的墨跡區域。
這些卷軸是在位于英格蘭牛津附近的Diamond Light Source(一種粒子加速器)掃描的。
該機器可以產生的高強度平行X射線束,使得成像快速、準確且分辨率高。通過斷層重建算法,X射線圖片被轉化為3D體素體積,形成一系列的切片圖像。
接下來,需要在3D空間中識別出單獨的紙莎草紙張,這一步驟主要依賴于一個名為Volume Cartographer的工具。
Seth Parker在Diamond Light Source粒子加速器掃描卷軸
如下動畫向我們展示了在Volume Cartographer中如何進行手動和自動分割操作。
最終步驟是,墨跡檢測。
對于完整卷軸的大規模掃描,墨跡檢測一直是個挑戰,直到最近挑戰賽發起團隊在兩個方向上取得了突破:
- 裂紋模式
去年夏天,Casey Handmer在檢查平鋪后的表面體積時,發現了一種奇特的裂紋模式,這些裂紋似乎組成了文字。
Casey因這一發現贏得了首個墨跡獎,并與社區共享了他的發現,隨后引發了一系列的研究活動。
- Kaggle競賽
與此同時,數百支團隊在Kaggle競賽中努力構建出最佳的機器學習模型,目標是檢測那些在幾百年前卷軸物理解卷過程中脫落的碎片上的墨跡。
與之前不同的是,他們利用了這些碎片照片上的真實數據進行訓練,而不是標記尚未發現的裂紋。
雖然這些努力產生了一些優秀的模型,但它們在分割團隊處理的平鋪圖像上似乎并不奏效。
直到谷歌華人工程師Youssef Nader應用了領域適應技術,這一技術最終幫他贏得了第一字母獎的亞軍。
在得到訓練數據后,全球眾多參與者通過計算機視覺、機器學習不懈努力,不到一年時間,立刻攻克破解古卷閱讀這一難題。
10個月的時間,他們取得了成功。
終于,在經過275年漫長的時間中,我們有能力閱讀這些卷軸:
下圖是PHerc.Paris. 4(法國科學院)的部分文本,2000年來首次被人閱讀。大約95%的卷軸內容仍待揭曉。
卷軸字體被揭曉那刻,就會發現,被兩千年的泥土和灰燼封存的祖先思維再次展現在世人面前!
那么,都有誰拿下了這次的大獎?
三人團隊,斬獲70萬美元大獎
在眾多參賽作品中,有一份作品非常突出。
評審結果公布,三人團隊獲得了Vesuvius Challenge 70萬美元大獎,他們分別是Youssef Nader、Luke Farritor和Julian Schilliger。
這三位成員的名頭可不小,而且是這場挑戰賽中最重要的貢獻者。
值得一提是,21歲的Luke Farritor是一名計算機學生,曾在SpaceX實習,是史上第一位從赫庫蘭尼姆卷軸讀出整個單詞ΠΟΡΦΥΡΑ?(意為紫色)的人,并贏得了首字母獎的第一名。
就連他的個人主頁,字體都有種年代久遠的感覺。
柏林自由大學的博士生Youssef Nader在去年10月就讀出了幾列文本,并贏得了第二名的首字母獎。他的成果特別清晰易讀,自然成為了團隊的lead。
還有Julian Schilliger,是來自蘇黎世聯邦理工學院(ETH Zürich)機器人學學生,因其在Volume Cartographer上的卓越工作而贏得了三個分割工具獎,讓我們能夠看到如今的紙莎草區域3D映射。
為了拿下最終的大獎,三人組建了一個強大的團隊,并向評審提交了一份,如今被評為最易讀的作品。
提交的文件中,包含了三種不同的模型架構的結果,互相印證。其中基于TimeSformer的模型輸出了最佳圖像。
為了防止過擬合和數據幻讀,他們采取了多種措施,包括采用多架構結果、研究不同的輸入/輸出窗口大小、應用標簽平滑和多樣化的驗證方法。
這個墨水檢測代碼已經在GitHub上開源。
獲獎者的主提交圖片(TimeSformer 64x64)
除了卓越的墨跡檢測能力,這份作品還展示了迄今為止,我們見過的最強大的自動分割技術。
便是由Julian開發的ThaumatoAnakalyptor(大致意為「奇跡揭示者」)能夠從多個卷軸中生成大量紙莎草片段。
對已知區域的重新分割驗證了之前的墨跡發現,全新的分割則揭示了如卷軸最外層包裹等其他地方的文字。
來自自動分段的輸出。頂行與提交圖像重疊,底行有新的分段。
谷歌華人工程師拿下亞軍
此外,除了第一名拿下大獎,Vesuvius Challenge還評出了三個并列的亞軍,將各自獲得50,000美元獎金。
這些團隊在墨跡標記和采樣的細節處理上各有創新。
谷歌華人工程師Shao-Qian Mah
技術細節是對UNETR++模型進行了定制調整。這是一種基于變壓器的 UNET 衍生工具,在醫學成像中用作3D特征提取器,對深度層進行最大池化處理,然后使用基于Segformer B-5的最終特征提取器。
另外,還有2個團隊共同獲得亞軍。
團隊二:Elian Rafael Dal Prá, Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, Jo?o Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, 和Odemir Martinez Bruno。
團隊三:Louis Schlessinger和Arefeh Sherafati。
5%的卷軸,寫了什么?
到目前為止,研究團隊已經成功展開,并閱讀了第一卷卷軸的約5%,并對露出的文字進行了初步轉錄。
初步的閱讀提供了這篇哲學文本的一瞥,根據學者的解讀:
這篇文本主要探討的是快樂,正確地理解快樂,在伊壁鳩魯哲學中是最高的善。在卷軸的兩段連續的文字中,作者探討了食物等商品的可用性是否,以及如何影響它們提供的愉悅。
那些稀缺的東西是否比大量存在的東西帶來更多的快樂?作者認為不是:「就像食物一樣,我們不會馬上相信稀缺的東西絕對比豐富的東西更令人愉快。但是,我們是不是更容易放棄那些大量存在的東西呢?這樣的問題經常會被頻繁地提出討論。
由于這是卷軸的結尾,這種表述可能意味著在同一系列作品的后續書籍中還有更多內容。在文本的開頭,提到了一位名叫Xenophantos的人,可能是同一位人物——假設是一位音樂家——也在Philodemus的《關于音樂》一作中被提及。
Philodemus,作為伊壁鳩魯學派的一員,被認為是別墅中的常駐哲學家,在那里發現卷軸的小圖書館里工作。
初步、粗略的轉錄草稿如下:
在卷軸的后面:
在文本的結尾部分,作者對他的對手進行了尖銳的批評,他們「在定義快樂的問題上,無論是從總體上還是具體上,都無話可說」。
最后,卷軸以這樣的話結束:
……我們不是不對某些事情提出質疑,而是對其他事情有所理解/記憶。并且,當這些事情經常顯露出來那樣,我們明白說出真相是很重要的!
學者們或許會將其稱之為一篇哲學論文。
但對我們而言,是如此地熟悉,古軸的第一篇竟是講述「如何享受生活」的兩千年前的文章。
在結尾段落里,Philodemus是否在批評斯多葛學派,聲稱斯多葛主義是一個不完整的哲學。因為它「對于快樂一無所知」?
他似乎在討論的問題——生活的快樂以及什么讓生活變得有價值——仍然是我們今天思考的話題。
圖片識別準確度如何?
人人皆知,機器學習模型通常會產生「幻覺」,即輸出與其訓練數據相似、但實際上是虛構的文本或圖片。
同樣,參賽者可能通過自己編造圖像來作弊,例如將圖像嵌入到模型權重中。
那么,如何確保這件事不會發生?這里有幾種驗證方法:
- 技術復現
Vesuvius Challenge技術審查團隊親手復現了獲獎作品,確保完全理解了代碼的每個細節,并獨立運行代碼時,得到了與原作品相似的圖像。
- 多次提交相同區域的圖片
你可能注意到,所有提交的圖片都展示了卷軸的同一區域。Vesuvius Challenge向所有參賽者提供了分割團隊用CT掃描創建的3D映射的紙莎草片段。
- 小范圍的輸入/輸出
墨跡檢測模型并不是基于希臘字母、光學字符識別(OCR)或語言模型。它們是獨立地識別CT掃描中的微小墨點,這些墨點聚集起來后才形成了文字。因此,圖片中顯示的文本并非機器學習模型虛構出來的,而是直接基于CT掃描中的實際數據。
模型采用了較小的數據處理窗口:在一些情況下,它的輸出結果甚至僅限于兩種狀態:「有墨跡」和「無墨跡」,這極大地降低了模型錯誤地生成類似字母形狀的可能性
下一步是破譯一部完整的作品。
Nat Friedman宣布了下一輪2024年Vesuvius Challenge獎,目標是在年底前閱讀85%的卷軸。
與此同時,他表示,僅僅是走到這一步就「感覺像是一個奇跡,我不敢相信它竟成功了」。