成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

免費科研利器!Meta祭出Nougat,PDF格式轉(zhuǎn)換,公式表格精準(zhǔn)識別,掃描版文檔也可以

人工智能
Meta的研究人員基于Vision Transformer架構(gòu),為處理科學(xué)文檔量身訂制定制了一款光學(xué)字符識別(OCR)——Nougat。與傳統(tǒng)OCR不同之處在于,Nougat可以處理整個頁面,并且輸出格式是MultiMarkdown,適合于學(xué)術(shù)文檔寫作。

做研究的童鞋們簡直要狂喜!

近來,Meta AI研究人員推出一款OCR神器Nougat,能夠分分鐘把PDF轉(zhuǎn)換為MultiMarkdown。

各種復(fù)雜數(shù)學(xué)公式、表格、文字、甚至是掃描版的PDF通通可以提取出來。

真有這么神?不如上圖說話。

拿出一本很有年代感的書籍,每個公示都可以清晰地識別。

圖片圖片

圖片圖片

即便文檔凹凸不平,也不礙事,公示格式照樣重現(xiàn)。

圖片圖片

還有PDF中的表格,也能原模原樣搬過來。

圖片圖片

不過有柱狀圖的文檔,Nougat暫時還不能呈現(xiàn)。

圖片圖片

這么神的科研利器,究竟是什么來頭?

科研OCR神器,怎么來?

要知道,除了HTML之外,PDF是互聯(lián)網(wǎng)上第二大重要的數(shù)據(jù)格式,訪問量占比為2.4%。

然而,對于科研人員最不便的是,存儲在這些文件中的信息很難提取為任何其他格式。

對于高度專業(yè)化的文檔更是如此,例如科學(xué)研究論文中數(shù)學(xué)表達式的語義信息會丟失。

對此,Meta的研究人員基于Vision Transformer架構(gòu),為處理科學(xué)文檔量身訂制定制了一款光學(xué)字符識別(OCR)——Nougat。

與傳統(tǒng)OCR不同之處在于,Nougat可以處理整個頁面,并且輸出格式是MultiMarkdown,適合于學(xué)術(shù)文檔寫作。

尤其重要的是,它在處理數(shù)學(xué)公式中的上標(biāo)和下標(biāo)等變得非常容易。

圖片圖片

論文地址:https://arxiv.org/pdf/2308.13418.pdf

具體來說,Nougat是一個編碼器-解碼器的Transformer架構(gòu),允許端到端的訓(xùn)練,主要建立在Donut架構(gòu)之上。

這一模型不需要任何OCR相關(guān)的輸入或模塊,文本由網(wǎng)絡(luò)隱式識別。

圖片圖片

編碼器

視覺編碼器接收文檔圖像圖片,裁剪邊距并調(diào)整圖像大小,以適合大小(H,W)的固定矩形。

如果圖像小于矩形,則會添加額外的填充,以確保每個圖像具有相同的維度。

這里,研究人員使用Swin Transformer Swin,可將圖像分割成固定大小的非重疊窗口,并應(yīng)用一系列自注意力層來聚合這些窗口的信息。

該模型輸出一個嵌入補丁圖片的序列,其中d是潛在維度,N是補丁的數(shù)量。

解碼器

使用具有交叉注意力的Transformer解碼器架構(gòu)將編碼圖像z解碼為token序列。

token以自回歸方式生成,使用自注意力和交叉注意力分別關(guān)注輸入序列R和編碼器輸出的不同部分。最后,輸出被投影到詞匯量v的大小,產(chǎn)生對數(shù)圖片

數(shù)據(jù)增強

在圖像識別任務(wù)中,使用數(shù)據(jù)增強來提高泛化能力通常是有益的。

由于研究僅使用數(shù)字生成的學(xué)術(shù)研究論文,因此需要采用多種變換來模擬掃描文檔的缺陷和可變性。

這些變換包括腐蝕、膨脹、高斯噪聲、位圖轉(zhuǎn)換、圖像壓縮、網(wǎng)格畸變和彈性變換。每個都有應(yīng)用于給定圖像的固定概率。這些轉(zhuǎn)換在Albumentations庫中實現(xiàn)。

圖片圖片

為了訓(xùn)練模型,團隊使用了來自arxiv、PubMed Central等平臺的科學(xué)論文PDF數(shù)據(jù)集,以及來自作者的相應(yīng)LaTeX源代碼。

這一數(shù)據(jù)集總共超過800萬頁組成。

收集到數(shù)據(jù)后,研究人員進行了數(shù)據(jù)處理,首先將原文檔轉(zhuǎn)換為HTML,然后再轉(zhuǎn)換為Markdown格式。

圖片圖片

具體來說,研究人員根據(jù)PDF文件中的分頁符拆分Markdown文件,并將每個頁面柵格化為圖像以創(chuàng)建最終的配對數(shù)據(jù)集。

編譯過程中,LaTeX 編譯器會自動確定PDF文件的分頁符。

實驗結(jié)果

測試中,Nougat從科學(xué)論文中提取文本、公式和表格的準(zhǔn)確率很高。

圖片圖片

對于連續(xù)文本,它在BLEU分?jǐn)?shù)超過91%,準(zhǔn)確率超過96%。

公式和表格的性能較低,略高于75%,但仍然比GROBID等替代品可靠得多,后者的數(shù)學(xué)公式準(zhǔn)確率略低于11%。

圖片圖片

不過,在管理跨文檔一致性和避免生成過程中重復(fù)文本循環(huán)方面,仍面臨一些挑戰(zhàn)。

圖片圖片

根據(jù)實驗結(jié)果,logits重復(fù)檢測示例如下:

圖片圖片

Meta團隊表示,Nougat是將PDF研究論文轉(zhuǎn)換為結(jié)構(gòu)化的機器可讀文本,從而改善科學(xué)知識獲取的一種有前途的解決方案。

通過彌合PDF與文本之間的鴻溝,這將使數(shù)百萬篇科學(xué)論文更易于獲取。

參考資料:

https://the-decoder.com/nougat-metas-latest-ai-model-makes-scientific-pdfs-machine-readable/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-08-30 13:09:12

AI模型

2011-06-29 11:53:54

WPS表格

2020-04-28 15:25:39

復(fù)旦代碼神器

2011-04-26 09:52:15

LinuxPDF

2015-07-17 15:56:33

Office2007

2018-05-07 14:52:27

區(qū)塊鏈扶貧

2018-03-07 20:00:12

PythonPDFWord

2014-03-07 16:23:36

轉(zhuǎn)換器PDFWord

2023-09-12 14:46:24

人工智能自然語言

2021-08-05 18:35:11

系統(tǒng)識別命令網(wǎng)絡(luò)安全

2022-07-07 15:17:04

HandBrake視頻轉(zhuǎn)換開源

2021-04-05 07:23:03

PDF應(yīng)用編輯器

2020-11-04 08:47:17

智能桌布

2010-12-10 15:26:16

管理軟件今目標(biāo)SAAS

2012-09-04 15:32:47

搜狗文檔

2023-12-07 07:16:57

Meta訓(xùn)練

2011-12-02 14:17:21

MSI掃描儀

2019-07-30 10:51:45

Markdown格式化文檔Linux

2011-07-13 10:32:09

開源
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一级免费毛片 | 综合色在线 | 日日噜噜噜夜夜爽爽狠狠视频, | 一级在线免费观看 | 国产精品一区二区av | 亚洲一区二区三区免费在线 | 久久综合久 | 人人插人人 | 成人av免费在线观看 | 91在线色视频 | 丁香综合 | 羞羞网站在线观看 | 亚洲视频在线播放 | 男人午夜视频 | 亚洲精品av在线 | 亚洲精品久久久一区二区三区 | 久久久久www| 草樱av| 中文字幕免费视频 | 亚洲一区成人 | 国产成人精品一区二区三区四区 | 性一爱一乱一交一视频 | 久久av网 | 日韩在线欧美 | 91av在线免费观看 | 视频一区在线观看 | 成人免费看片网 | 国产激情毛片 | 亚洲一区二区三区四区在线观看 | 亚洲视频在线观看免费 | 国产99热 | 欧美操操操 | 国产精品精品久久久 | 日本三级电影在线看 | 国产精品国产自产拍高清 | 亚洲第一中文字幕 | 色综合久久88色综合天天 | 国产日韩欧美电影 | 99久久国产免费 | 欧美一区二区在线观看 | 欧美456|