成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

比OCR更強(qiáng)大的PPT圖片一鍵轉(zhuǎn)文檔重建技術(shù)

開發(fā) 開發(fā)工具
本文介紹了 QQ 研發(fā)中心自研的 PPT 重建技術(shù),目前騰訊文檔在進(jìn)行接入工作。當(dāng)前主流辦公產(chǎn)品比如 office,wps,騰訊文檔會(huì)采用 AI 技術(shù)對圖片進(jìn)行排版恢復(fù)還原為 doc 形式的文檔。通常針對以文字偏多,格式簡單的圖像效果比較好。

 本文介紹了 QQ 研發(fā)中心自研的 PPT 重建技術(shù),目前騰訊文檔在進(jìn)行接入工作。當(dāng)前主流辦公產(chǎn)品比如 office,wps,騰訊文檔會(huì)采用 AI 技術(shù)對圖片進(jìn)行排版恢復(fù)還原為 doc 形式的文檔。通常針對以文字偏多,格式簡單的圖像效果比較好。如果內(nèi)容豐富,圖片并茂的內(nèi)容圖像在轉(zhuǎn)為 doc 文檔時(shí),由于圖像比例,文檔排版插入,對豐富背景還原度差等問題導(dǎo)致很多 ppt 形式的圖片無法很好還原為電子文檔。

目前越來越多的資源信息是以圖像形式存儲(chǔ),然而很多用戶在獲取圖像后需要對圖片進(jìn)行編輯或者電子文檔形式進(jìn)行存儲(chǔ)。最主流的做法是直接進(jìn)行 OCR 提取,但這種方法無法滿足用戶對排版的需求。當(dāng)前主流辦公產(chǎn)品比如 office,wps,騰訊文檔等會(huì)采用一些技術(shù)對圖片進(jìn)行排版恢復(fù)還原為 doc 形式的文檔,通常針對以文字偏多,格式簡單的圖像效果比較好,但如果內(nèi)容豐富,圖片并茂的 ppt 內(nèi)容圖像在轉(zhuǎn)為 doc 文檔時(shí)由于圖像比例,文檔排版插入限制以及文檔適應(yīng)背景單一而豐富背景還原度差等問題會(huì)導(dǎo)致很多 ppt 形式的圖片無法很好還原為電子文檔。

QQ 研發(fā)團(tuán)隊(duì)團(tuán)隊(duì)在前期已經(jīng)推出了基于深度學(xué)習(xí)的文檔重建,表格重建的技術(shù)文章。產(chǎn)品也已經(jīng)在騰迅文檔,PCQQ,手機(jī) QQ 上線,近期我們又增加了 PPT 重建功能。小程序在搭建中,其中添加里更多子功能,比如 OCR,文檔自動(dòng)選框,去摩爾紋,圖片扭曲恢復(fù)等。歡迎大家通過 QQ 小程序體驗(yàn)。

 

 

 

 

下面主要給大家介紹 PPT 的重建技術(shù),產(chǎn)品流程如圖 1 所示,效果圖如圖 2 所示:

 

 

 

 

圖1 圖片轉(zhuǎn)PPT 產(chǎn)品流程

 

 

 

 

圖2 圖片轉(zhuǎn)PPT (左:原圖 右:PPT )

一、圖片轉(zhuǎn) ppt 框架

項(xiàng)目的技術(shù)流程主要分為三大模塊:

預(yù)處理:包括文檔檢測和矯正,圖片去摩爾紋,文檔扭曲恢復(fù),文檔旋轉(zhuǎn),語義分割等,主要深度學(xué)習(xí),模型部署在 GPU。

排版分析:對各實(shí)體的恢復(fù),以及排版處理,邏輯流程部署在 CPU。

后處理: 生成導(dǎo)出 PPT 文件

圖3 項(xiàng)目技術(shù)模塊

下面給大家一一介紹我們主要模塊用到的技術(shù)細(xì)節(jié)。

二、AI 模塊

2.1 自動(dòng)框選

用戶拍攝圖片一般不會(huì)是工整圖片,所以在進(jìn)行提取前還需要做很多的預(yù)處理工作,其中最重要的一個(gè)模塊就是先框選出真正我們需要轉(zhuǎn)換的 PPT/文檔內(nèi)容。

圖4 自動(dòng)框選效果

對內(nèi)容的框選現(xiàn)有很多技術(shù),比如圖像處理的邊緣提取,但是效果不好需要特別多的后處理,隨著 AI 的發(fā)展,也有一些深度學(xué)習(xí)的方法對邊緣進(jìn)行提取,比如 HED 網(wǎng)絡(luò)。前期同事也基于 hed 進(jìn)行了模型訓(xùn)練得到了不錯(cuò)的檢測效果。使用的框架圖如下圖:

其中 Decoder1 分支的簡易圖如下:

經(jīng)過 HED 處理后在工程的后處理還是需要很多規(guī)則判斷,特別在候選框選取時(shí)添加過多規(guī)則,如下圖。所以我們需要進(jìn)一步對模型進(jìn)行優(yōu)化減免后處理的繁雜工作以及優(yōu)化框選準(zhǔn)確性。

圖5 框選后處理

通過 case 分析,我們預(yù)測的選框通常會(huì)多出背景區(qū)域,如果通過語義分析知道大致的文檔內(nèi)容區(qū)域,再通過邊緣線條檢測準(zhǔn)確的邊框信息,融合信息是否能得到更精確的選框。

所以在原有基礎(chǔ)上增加了一個(gè)分割分支,多任務(wù)學(xué)習(xí),在 decoder 模塊分出兩個(gè)分支,一個(gè)分支學(xué)習(xí)圖像的邊緣信息,一個(gè)分支學(xué)習(xí)圖像的語義信息,如下圖所示。

 

圖6 多任務(wù)邊緣檢測網(wǎng)絡(luò)

 

圖7 網(wǎng)絡(luò)示意圖

兩個(gè)分支的 encoder 部分卷積層權(quán)重共享。

在邊緣檢測分支,我們還是分為多個(gè) block 計(jì)算 loss,并通過 se 模塊融合分支。對于邊緣檢測,我們更多想得到全局信息,所以引入了 SEblock,如下圖,在 featrueMap 上做了一次 attention。


圖8 SEBlock

在語義分割分支,我們采用通過的 Unet 結(jié)構(gòu)。最終加權(quán)兩個(gè)分支的 loss 進(jìn)行訓(xùn)練。

在訓(xùn)練過程中,我們的數(shù)據(jù)來源于仿真和真實(shí)數(shù)據(jù)的標(biāo)注,另一部分來源于半監(jiān)督方式通過檢測分支的結(jié)果獲取到文檔內(nèi)容從而得到分割 mask。在 infer 過程中,檢測分支獲取得到所有可能組成的四邊形,和分割分支的結(jié)果計(jì)算 Miou,選擇 miou 最大的檢測框作為最終框選對象。

圖9 檢測結(jié)合分割獲取最佳選框

通過對比可以發(fā)現(xiàn),語義分割分支可以得到更精準(zhǔn)的檢測框。

圖10 優(yōu)化前后對比圖

通過驗(yàn)證集驗(yàn)證,hed 驗(yàn)證集 miou=88.38,多任務(wù)網(wǎng)絡(luò) miou=90.63,多任務(wù)訓(xùn)練的方式 miou 可以提升 2 個(gè)點(diǎn)。

2.2 圖像矯正

檢測到 PPT 文檔內(nèi)容后,我們還需要對圖像質(zhì)量進(jìn)行提升后再進(jìn)行后續(xù)處理,希望轉(zhuǎn)換后的文件還原度更高。針對圖片矯正我們主要做了,去摩爾紋,文檔旋轉(zhuǎn)矯正和扭曲恢復(fù)。

2.2.1 去摩爾紋

對于屏幕拍攝圖片,摩爾紋很影響我們后續(xù)處理的圖像質(zhì)量,所以檢測到圖片后我們首先通過小的分類模型判斷是否需要對摩爾紋進(jìn)行處理,如果屬于屏幕拍攝場景會(huì)調(diào)用去摩爾紋模塊。

去除摩爾紋的網(wǎng)絡(luò)框架和效果圖如下:

圖11 去摩爾紋網(wǎng)絡(luò)

圖12 去摩爾紋效果(左:帶摩爾紋圖片 中:原圖 右:去摩爾紋效果)

2.2.2 扭曲恢復(fù)

檢測出四邊形后,通過投影變換可以對圖片進(jìn)行一步矯正,但是對于扭曲圖像,僅僅通過圖像處理是不夠的,我們通過扭曲恢復(fù)模型,對圖片扭曲恢復(fù)。這一步驟對于紙質(zhì)的 PPT 拍攝以及文檔拍攝圖片比較重要。

扭曲恢復(fù)的網(wǎng)絡(luò)框架和效果圖:

圖13 扭曲恢復(fù)效果

扭曲網(wǎng)絡(luò)借鑒了 Document Image Unwarping via A Stacked U-Net 論文思路,近期也做了比較大的優(yōu)化,主要通過將曲線擬合算法結(jié)合到網(wǎng)絡(luò)結(jié)構(gòu)解決了扭曲恢復(fù)后的文字在空間上存在細(xì)微抖動(dòng)的問題,后續(xù)我們也會(huì)公開這塊的技術(shù)細(xì)節(jié)。

2.2.3 文本旋轉(zhuǎn)

OCR 也是我們重建的一個(gè)重要模塊,除了能夠提取圖片中的文字信息,還有一個(gè)作用是可以通過文本檢測框獲取到圖片中文本的旋轉(zhuǎn)角度。但是目前 OCR 對于角度的預(yù)測在-45---45 角度之間比較準(zhǔn)確,對于 90 度,180 度的旋轉(zhuǎn)圖片,預(yù)判角度不太準(zhǔn)確。

我們采用的方案是首先通過小的分類模型預(yù)測圖片的象限方向,分類類別為[0,90,180,270]。先把圖片旋轉(zhuǎn)到-45~45 之間。再通過 OCR 預(yù)測角度講圖片旋轉(zhuǎn)到 0 度。效果如下圖:

 

圖14 綜合分類模型和OCR 模型旋轉(zhuǎn)圖片

左圖為原圖,中圖為判斷需要旋轉(zhuǎn) 180 度,右圖為通過 OCR 預(yù)測角度旋轉(zhuǎn)后圖片。

2.3 實(shí)體提取

通過以上步驟,我們可以獲取到比較干凈工整的 PPT 內(nèi)容圖片,這一步我們要通過語義分割,檢測到圖片的實(shí)體部分,方面后續(xù)生成 PPT。本模塊在圖片轉(zhuǎn) word 和圖片轉(zhuǎn) excel 中都需要的模塊。

對于 PPT 圖片,我們主要分割的類別為文本,圖片,表格,背景。下圖為標(biāo)注的語義分割類別示意圖。

圖15 語義分割示意圖

對于主流框架和基礎(chǔ)網(wǎng)絡(luò),我們使用 PPT 的分割數(shù)據(jù)做了一些實(shí)驗(yàn)對比

圖15 語義分割主流框架實(shí)驗(yàn)對比

從基礎(chǔ)網(wǎng)絡(luò)上看,shufflenet 速度更快,resnet 效果更好。網(wǎng)絡(luò)結(jié)構(gòu)上從性能上分析 bisenet 性價(jià)比更好。

我們在項(xiàng)目中使用的是 Bisenet 框架,在學(xué)習(xí)特征時(shí)并行兩條支路,一條學(xué)習(xí)空間細(xì)節(jié)信息,一條支路學(xué)習(xí)高層語義信息,然后將學(xué)到的信息融合,能夠更好學(xué)習(xí)到全局信息和局部信息特征信息。

圖16 BiseNet網(wǎng)絡(luò)

2.4 實(shí)體恢復(fù)

在上一步我們已經(jīng)知道圖片中哪塊區(qū)域是文本,圖片,表格,但是直接插入到 PPT 中會(huì)存在很多問題,比如圖片中還嵌有文本的處理,文本框直接插入的背景問題等。我們重要介紹文字和背景的恢復(fù)。

2.4.1 文本恢復(fù)

通過實(shí)體分割文本段以及 OCR 提取后,可以獲取到文本框信息。如圖 17,左圖為原圖,右圖紅框?yàn)槲覀儷@取到的文本區(qū)域,但是無法直接獲取到字體顏色。

圖17 OCR框選文本框

得到文本框后,字體顏色恢復(fù)步驟為:

  • 截取文本框區(qū)域,如圖 18(a)
  • 對文本框區(qū)域自適應(yīng)二值化得到前景背景,如圖 18(b)
  • 前景顏色區(qū)域計(jì)算均值得到前景和背景顏色值,如圖 18(b)上前景像素區(qū)域?qū)?yīng)的 a 點(diǎn)像素值 rgb 計(jì)算均值,設(shè)置為字體顏色。
  • 圖 18(a)的文本塊區(qū)域,背景顏色為 RGB([73.,192.,179]);前景顏色 RGB ( [207, 255,255])
  • 圖 18(c)的文本塊區(qū)域,背景顏色為 RGB([229,250,245]);前景顏色 RGB ( [78,156,149])

 

圖18 獲取文本框前景

得到了字體大小和顏色恢復(fù),結(jié)合之前的背景重建,我們可以得到最終的還原效果,字體幾乎完全還原,如圖 19 所示:

 

圖19 字體還原效果

2.4.2 背景恢復(fù)

通過語義分割模型后,我們可以獲取到前景所有實(shí)體,和剩下的背景區(qū)域。通過實(shí)體抽取直接在畫布上進(jìn)行插入,效果如圖 20。

圖20 未對背景做處理插入效果

直接插入效果可以看出,在文本區(qū)域塊和周圍其他背景顏色差別太多,過度顯得特別突兀,而且如果插入文本框顏色和文字顏色一致會(huì)導(dǎo)致文本看不清。所以我們需要通過 inpainting 算法,對背景進(jìn)行重建。重建背景,圖片,文字,表格,包括圖片上的文字后就可以生成 PPT 了。

2.5 生成 PPT

通過以上步驟我們得到了各個(gè)實(shí)體模塊,并且對每個(gè)模塊進(jìn)行了恢復(fù)重建。通過語義分割模塊,可以獲取到各實(shí)體(表格,圖片,文本,背景)的相對坐標(biāo)位置。通過重建模塊,可以獲取:

  • 表格:表格的樣式,行列數(shù),單元格內(nèi)文字內(nèi)容
  • 圖片:圖片抹除文字區(qū)域后,通過 impainting 重建圖片內(nèi)容
  • 文本:文本區(qū)域的字體顏色,字體大小
  • 背景:抹除前景區(qū)域后,通過 inpainting 重建背景內(nèi)容

最后可以按照 office open xml 的格式在畫布上依次插入背景,表格,圖片,文字實(shí)體,得到最終的可編輯.ppt 格式。騰訊文檔通過 http 請求獲取到.ppt 格式文件后再轉(zhuǎn)化為騰訊文檔在線電子文檔形式展示。

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2021-07-21 08:59:10

requestsPython協(xié)程

2024-10-08 09:10:03

JDK通信并發(fā)

2012-11-09 10:16:22

ARM低功耗Intel

2022-01-24 16:17:26

htop工具Linux

2019-10-11 11:00:53

Nginx神器前端

2020-04-23 18:30:25

AI人工智能芯片

2017-03-23 13:07:00

小程序DCloud

2021-02-25 17:21:57

微軟Word 文檔PowerPoint

2023-08-21 12:10:08

算法AI

2021-08-31 23:33:50

AndroidiOS功能

2015-02-09 15:25:52

換膚

2023-03-30 11:08:49

AI模型訓(xùn)練

2023-09-01 14:07:00

ChatGPTGPT數(shù)據(jù)分析

2024-04-19 13:37:30

Rust開發(fā)編輯器

2023-05-07 07:45:31

2015-07-30 11:13:24

LinuxShell

2024-04-08 14:07:51

Animagine開源

2021-05-25 09:10:54

工具代碼開發(fā)

2023-10-10 08:22:12

Tesseract庫開源

2021-07-15 16:58:45

數(shù)據(jù)庫RDS Postgre阿里云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日p视频免费看 | 情侣酒店偷拍一区二区在线播放 | 久久99精品国产自在现线小黄鸭 | 欧美www在线 | 谁有毛片 | 久久亚洲天堂 | 中文字幕日韩一区 | 欧美日韩一区二区在线播放 | 人干人人 | 成人在线一区二区三区 | 欧美视频1区 | 日本 欧美 国产 | 午夜电影网站 | 伊人热久久 | 在线观看中文字幕 | 亚洲国产精品视频 | 日本在线视频一区二区 | 日韩在线免费视频 | 一级一级一级毛片 | 国产99久久久国产精品下药 | 亚洲精品乱码久久久久久按摩观 | 亚洲一区欧美一区 | 毛片网站在线观看 | 免费色网址 | 四虎永久免费地址 | 五月激情综合 | 成人福利在线观看 | 中文字幕日韩在线 | 在线观看国产www | 久久99精品久久久久蜜桃tv | 亚洲精品在线国产 | 在线欧美视频 | 波多野结衣在线观看一区二区三区 | 中国一级大毛片 | 黄网站免费在线观看 | 波多野结衣精品 | 色频 | 最新中文字幕在线 | 午夜精品久久久久久久久久久久 | 午夜精品一区二区三区三上悠亚 | 国产美女永久免费无遮挡 |