成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

圖像檢索在高德地圖 POI 數據生產中的應用

開發 開發工具
高德通過自有海量的圖像源,來保證現實世界的每一個新增的POI及時制作成數據。在較短時間間隔內(小于月度),同一個地方的POI 的變化量是很低的,如下圖所示,只有“湯火功夫”POI是一個新增的掛牌。

[[433256]]

一 背景

POI 是 Point of Interest 的縮寫。在電子地圖上,POI 代表餐廳、超市、政府機關、旅游景點、交通設施等等 。POI是電子地圖的核心數據。對普通用戶而言,POI 數據包含的名稱和位置信息,能夠滿足其使用電子地圖“查找目的地”,進而喚起導航服務的基本需求;對電子地圖而言,通過提供“搜索附近”、“點評”等操作,可提高用戶的活躍時長。另外,POI數據是線上線下連接互動的一個紐帶,是基于位置服務(Location Based Service)產業的一個重要組件。

高德通過自有海量的圖像源,來保證現實世界的每一個新增的POI及時制作成數據。在較短時間間隔內(小于月度),同一個地方的POI 的變化量是很低的,如下圖所示,只有“湯火功夫”POI是一個新增的掛牌。

圖1. 同一地方上不同時間的POI牌匾對比

如果對全部POI進行處理的話,則會帶來高昂的作業成本,因此需要對其中沒有變化的POI進行自動化過濾,其中關鍵技術能力就是圖像匹配,該場景是一個較為典型的圖像檢索任務。

1 技術定義

圖像檢索問題定義:給定查詢圖像(Query),通過分析視覺內容,在大型圖像庫中(Gallery)中搜索出相似的圖像。該方向一直是計算機視覺領域的一個長期研究課題,在行人重識別、人臉識別、視覺定位等任務中均有廣泛的研究。圖像檢索的核心技術是度量學習,其目標是在固定維度的特征空間中,約束模型將同類別樣本拉近,不同類別樣本推遠。在深度學習時代,主要有幾種經典的結構,包括:對比損失(contractive loss)、三元組損失(triplet loss)、中心損失(center loss)等,均是通過正負樣本定義以及損失函數設計上進行優化。此外,圖像檢索還有一個必不可少的要素就是特征提取,通常包括:全局特征、局部特征、輔助特征等,主要是針對不同任務特點進行相應的優化,例如:行人重識別以及人臉識別具有很強的剛性約束,并且具備明顯的關鍵特征(行人/人臉關鍵點),因此會將人體分割或關鍵點檢測信息融合到模型特征提取中。

2 問題特點

POI牌匾的圖像檢索和學術上主流檢索任務(如行人重識別)有著較大的區別,主要包括以下幾點:異源數據、遮擋嚴重以及文本依賴性。

異源數據

行人重識別任務也存在異源數據問題,但是該任務的異源更多是不同相機拍攝以及不同場景的區別。而在POI牌匾檢索場景中,存在更嚴重的異源數據問題,如下圖所示:

圖2. 不同拍攝條件下的異源圖像

左圖來自低質量相機,并且是前向拍攝;右圖來自高質量相機,并且是側向拍攝;因為相機拍攝質量以及拍攝視角不同,這就導致POI牌匾的亮度、形狀、清晰度等都存在非常大的差異。而如何在差異較大的異源數據中實現POI牌匾檢索,是一個非常具有挑戰性的問題。

遮擋嚴重

在道路場景中,經常存在樹木以及車輛等干擾信息,并且由于拍攝視角原因,拍攝到的POI牌匾經常會面臨嚴重的遮擋問題,如下圖所示:

圖3. 遮擋嚴重的POI牌匾示例

而且該遮擋場景還是不規則的,導致很難對兩個牌匾進行較好地特征對齊,這給POI牌匾檢索帶來巨大的挑戰。

文本依賴性

POI牌匾還有一個獨有特性就是對文本強依賴,主要是對POI名稱文本的依賴。在下圖場景中,兩個牌匾的整體布局以及顏色都非常相似,但是其中POI名稱發生了變化。而在該場景下,我們希望兩個牌匾不要匹配,這就需要引入文本特征來增強特征區分性。不過,由于遮擋原因也會導致文本特征不同,因此需要結合圖像特征進行權衡。而且,文本特征和圖像特征來自多個模態,如何將多模信息進行融合也是該業務特有的技術難點。

圖4. 僅文本變化的POI牌匾示例

二 技術方案

牌匾檢索的技術方案主要包括數據迭代和模型優化兩塊。在數據生成部分,我們分為了冷啟動自動生成數據以及模型迭代生成數據兩個步驟。在模型優化部分,我們設計了一個多模態檢索模型,包括視覺分支和文本分支兩部分,主要是考慮到牌匾的文本信息比較豐富,因此將視覺信息與文本信息進行融合。針對視覺信息特征的提取,我們進一步設計了全局特征分支與局部特征分支,并分別進行了優化。整體技術框架如下圖所示:

圖5. 整體技術方案

首先利用傳統匹配算法Sift自動生成模型所需的訓練數據,完成模型的冷啟動;并且在模型上線后,對線上人工作業結果進行自動挖掘,并組織成訓練數據,以迭代模型優化。多模態檢索模型是基于三元組損失(Triplet Los)的度量學習框架下進行設計的,輸入包括了:1)POI牌匾的圖像信息;2)POI牌匾的文本信息。圖像信息使用雙分支進行特征提取,文本信息使用BERT進行特征提取,最后再將文本特征與視覺特征進行融合。

1 數據

為訓練檢索模型,通常需要進行實例級標注,即按照POI牌匾粒度進行標注。而在不同資料中篩選同一POI牌匾是一件非常復雜的工作,如果進行人工標注的話,則會帶來高昂的標注成本,并且無法大規模標注。因此,我們設計了一套簡單高效的訓練數據自動生成方式,可用于模型冷啟動,整個環節無需任何人工標注。

我們借鑒了傳統特征點匹配算法思想,利用Sift特征點匹配算法對兩趟資料中的所有牌匾進行兩兩匹配,并通過內點數量對匹配結果進行篩選,即內點數量大于閾值的匹配牌匾視作同一牌匾。通常來說,傳統特征點匹配算法會存在泛化性不足問題,由此生成的訓練數據很可能導致模型無法很好學習,具體體現在:1)訓練樣本較為簡單;2)類別沖突,即同一牌匾分為多個類別;3)類別錯誤,即不同牌匾分為同一類別。因此,我們針對該問題進行了相應優化:1)采用多趟資料匹配結果,提升同一類別下牌匾的多樣性;2)采用Batch采樣策略以及MDR loss[2]來降低模型對錯誤標簽數據的敏感性。

具體來說,對于樣本多樣性問題,我們使用了多趟資料的匹配結果來生成訓練數據,因為在不同資料中同一牌匾存在多張來自不同視角的拍攝結果,這就保證了同一類別下牌匾的多樣性,避免了自動生成的樣本都為簡單樣本問題。Batch采樣策略即按類別進行采樣,而數據中類別總數遠遠大于batch size,因此可以緩解類別沖突的問題。MDR loss是在Triplet loss基礎上設計了根據不同距離區間進行正則化約束的新的度量學習框架,從而減少模型對對噪聲樣本的過擬合。

圖6. MDR loss示意圖,和Triplet loss相比增加了距離正則約束

圖6 是Triplet loss和MDR loss的對比示意圖。MDR loss希望正樣本和anchor之間的距離不被拉到無限近,同時負樣本也不希望被推到無限遠。以類別錯誤噪聲樣本來說,不同牌匾被誤分為同一類別,按照Triplet loss的優化目標則會強制模型將兩者距離學習到無限近,這樣的話,模型會過擬合到噪聲樣本上,從而導致最終效果較差。

2 模型

為了優化牌匾檢索效果,我們融合了牌匾中的視覺信息與文本信息,設計了多模態檢索模型。針對視覺信息,我們優化了模型全局特征和局部特征的提取能力。針對文本信息,我們使用BERT對牌匾的OCR結果進行編碼,將其作為輔助特征,并與視覺特征融合后進行度量學習。

全局特征

通常對于檢索任務來說,使用深度學習模型提取到的全局特征更為魯棒,可以適應牌匾視角、顏色、光照變化等不同場景。為了進一步提升全局特征的魯棒性,我們主要從以下兩方面進行了優化:1)采用Attention機制,加強對重要特征的關注;2)網絡backbone的改進,以關注到更多細粒度特征。

在我們的業務場景中,存在一些外觀相似而細節有一定差異的牌匾,如圖8 (c) 所示,在這種情況下,我們希望模型可以關注到牌匾中的細粒度信息,比如牌匾中文字的字體、文字排版或者是文字內容本身。而注意力機制則可以幫助模型在大量信息中準確地關注到能夠區分不同牌匾更為關鍵的部分。因此,我們在網絡中引入了注意力模塊,讓模型學習關鍵信息,以提升全局特征的辨別能力。我們采用了空間注意力機制SGE(Spatial Group-wise Enhance)[4],SGE通過對特征圖上的每個空間位置生成一個注意力因子來調整每個空間位置處特征的重要性。SGE模塊如圖7所示。它首先對特征圖進行了分組,然后對每組特征圖計算語義特征向量,使用語義特征向量和特征圖進行position-wise點乘,得到注意力圖,然后將注意力圖與特征圖進行position-wise點乘,以此來增強特征,從而獲得在空間上分布更好的語義特征。

圖7. SGE示意圖,引入了空間注意力機制

為了減少局部特征的損失,我們對網絡backbone進行了改進,取消了ResNet網絡最后一個block中的下采樣,使得最終的特征圖中包含更多的局部信息。除此之外,我們使用GeM[3]池化層替代了最后一個global average pooling,GeM是一種可學習的特征聚合方法,global max pooling和global average pooling都是它的特殊情況,使用GeM池化可以進一步提升全局特征魯棒性。

局部特征

在針對全局特征進行優化以后,現有模型仍然在以下三個方面表現不夠好:1)牌匾截斷的情況,特征學習質量差,如圖8(a);2)遮擋的牌匾,特征中引入一些無關的上下文信息,如圖8(b);3)相似但不同的牌匾難以區分,如圖8(c)。因此,我們進一步設計了局部特征分支[1],讓模型更加關注牌匾的幾何、紋理等局部信息,與全局特征共同做牌匾檢索。

圖8. 需局部特征優化的不同示例,(a)截斷 (b)遮擋(c)文本變化

針對局部特征的提取,我們主要的思路是將牌匾垂直切分成幾個部分,分別關注每個部分的局部特征[7],并對局部特征進行對齊后優化。對齊操作如下圖9所示,首先將特征圖進行垂直池化,得到分塊的局部特征圖,再計算兩張圖局部特征之間的相似度矩陣,然后根據公式1找到最短距離將兩張圖像進行對齊,其中,i,j分別表示兩張圖中的第i塊特征和第j塊特征,dij表示兩張圖中第i塊和第j塊特征的歐式距離。

圖9. POI牌匾局部對齊示意圖

通過這種方式進行局部特征對齊,可以很好地提升牌匾在截斷、遮擋、檢測框不準等情況下的檢索效果。

文本特征

POI牌匾對文本強依賴,可能存在僅牌匾名稱文本發生變化的場景。我們設計的全局特征分支以及局部特征分支,雖然可一定程度上學習到文本特征,但是文本信息在整體信息中占比較小,并且監督信號僅為兩張圖是否相似,導致文本特征并沒有被很好的學習到。因此,我們利用已有的文本OCR識別結果,并引入BERT對OCR結果進行編碼得到文本特征,該特征作為輔助特征分支和視覺特征進行融合,融合后的特征用于最終的牌匾檢索度量學習。值得注意的是,在對牌匾提取OCR結果時,為了減少單幀內識別結果不準的影響,我們利用了一趟資料內同一牌匾的多幀OCR結果,并且將所得到的OCR結果進行拼接,使用BERT對OCR結果特征編碼時,對來自不同幀的OCR結果之間插入符號做區分。

3 模型效果

在新的技術方案下,POI牌匾圖像檢索取得了非常好的效果,準確率和召回率都大于95%,大幅提升了線上指標,并且模型速度也有了巨大的提升。我們隨機選擇了一些匹配結果,如圖10所示。

圖10. 評測集中隨機抽取的POI牌匾檢索結果

我們在優化過程中,有一些非常難的Case也在逐漸被解決,如下圖11所示:

圖11. 評測集中難例展示,(a)(b)(c)是優化前的錯誤檢索結果,(d)(e)(f)是優化后的檢索結果

圖(a)、(b)、(c)展示的是優化前的Bad case(左圖為query圖像,右圖為Rank1檢索結果),從Bad case中我們不難發現,牌匾檢索對細粒度特征提取要求非常高,因為這些case普遍特點是具備整體相似性,但是局部特征有區別。這些Bad case就是我們設計的多模態檢索模型的初衷,并且也在優化過程逐漸得以解決,如圖(d)、(e)、(f)所示。我們提出的多模態檢索模型通過對全局特征優化以及引入局部特征對齊,使得模型更多關注到牌匾上更有區分性的局部特征,如文字信息,文字字體、板式,牌匾紋理等,因此我們的模型對于外觀相似的不同牌匾具有更好的區分能力,如圖(a)和圖(d)效果對比。此外,由于不同視角牌匾存在遮擋、拍攝時的光照強度不同以及不同相機色彩差異大等因素,部分牌匾只利用視覺特征檢索非常困難。因此,我們通過輔助特征分支加入了OCR信息,進一步增強了特征的魯棒性,使得牌匾檢索可以綜合考慮牌匾的視覺信息和牌匾中的文本信息進行檢索,如圖(b)和圖(e)效果對比。

三 未來發展和挑戰

圖像檢索是在高德地圖數據自動化生產中的一次嘗試,取得了不錯的效果,并且已在實際業務中使用。但是模型并不是完美的,仍會存在Corner case,為了解決這些case,我們未來將會從半監督學習/主動學習自動補充數據,以及引入Transformer[9,10]優化特征提取和融合兩方面進行探討。

1 數據:基于半監督學習/主動學習的數據挖掘

數據是非常重要的,因為模型很難做到完美,總是會存在Corner case,而解決Corner case的一個非常高效的手段就是針對性補充數據。補充數據的關鍵是如何挖掘Corner case以及如何自動標注,該方向也是目前學術的研究熱點,即半監督學習以及主動學習。半監督學習利用有標簽數據訓練出的模型來對海量無標簽數據產生偽標簽,進一步標簽數據和偽標簽數據混合后再優化模型。主動學習是利用有標簽數據訓練出的模型對海量無標簽數據進行數據挖掘,并人工標注挖掘出的有價值數據。兩者區別在于是否需要部分人工標注,半監督學習是完全由模型自身產生標簽,但是可能導致模型效果存在上限,而主動學習則可以一定程度可提高該上限,因此未來需要深入研究兩者的結合,從而更好的補充訓練數據,解決Corner case。

2 模型:基于Transformer的特征提取與融合

Transformer是目前學術的研究熱點,大量的工作已證明其在分類、檢測、分割、跟蹤以及行人重識別等任務上的有效性。和CNN相比,Transformer具有全局感受野以及高階相關性建模的特點,使其在特征提取上有著更好的表征能力。此外,Transformer的輸入較為靈活,可以方便地將其他模態信息進行編碼,并和圖像特征一起輸入到模型中,因此其在多模特征融合上也有較大的優勢。綜上來看,Transformer可以通過對圖像Patch的相關性建模來解決POI牌匾在遮擋/截斷場景下的匹配效果,并且可以通過對文本特征編碼來實現多模特征的融合。

本文參考文獻

[1] Zhang X, Luo H, Fan X, et al. Alignedreid: Surpassing human-level performance in person re-identification[J]. arXiv preprint arXiv:1711.08184, 2017.

[2]Kim, Yonghyun, and Wonpyo Park. "Multi-level Distance Regularization for Deep Metric Learning." arXiv preprint arXiv:2102.04223,2021.

[3]Radenovi? F, Tolias G, Chum O. Fine-tuning CNN image retrieval with no human annotation[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(7): 1655-1668.

[4]Li X, Hu X, Yang J. Spatial group-wise enhance: Improving semantic feature learning in convolutional networks[J]. arXiv preprint arXiv:1905.09646, 2019.

 

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2020-09-21 09:34:20

大數據

2016-06-06 10:50:46

大數據

2020-01-03 22:18:17

物聯網智慧能源智慧城市

2014-11-27 16:53:55

高德地圖

2014-12-02 18:23:40

高德地圖

2017-07-21 10:14:41

高德極客地圖高德地圖

2014-06-27 15:51:05

高德地圖

2014-06-27 15:40:19

高德地圖工程數據

2021-06-15 14:33:00

高德百度騰訊

2012-07-30 15:20:30

位置應用

2014-12-19 11:17:23

高德地圖郭德綱公交導航

2020-09-11 13:20:34

高德大數據出游

2014-12-08 17:08:08

高德地圖

2020-03-26 15:57:47

高德地圖

2014-08-12 15:14:30

高德地圖

2014-07-11 09:19:35

高德地圖

2014-11-13 10:46:30

高德地圖APEC出行

2022-04-06 11:18:46

SpringBoot代碼實踐
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产视频线观看永久免费 | 国产精品三级久久久久久电影 | 日韩欧美一级片 | 日产精品久久久一区二区福利 | 国产成人久久av免费高清密臂 | 亚洲视频免费在线看 | 在线观看国产 | 国产精品欧美一区二区 | 日韩色视频 | 黄片毛片在线观看 | 日韩av一区二区在线观看 | 亚洲美女在线一区 | 不卡一区二区三区四区 | 日韩一区二区福利 | 日韩欧美精品 | 国产重口老太伦 | 日韩在线免费视频 | 天天干天天爱天天 | 精品久久久久久亚洲综合网 | 亚洲精品电影 | 91天堂| 亚洲va国产日韩欧美精品色婷婷 | 男人的天堂亚洲 | 欧美一级二级在线观看 | 久久久精品久久久 | 日本高清不卡视频 | 中文字幕视频在线看 | 天天射天天干 | 国产成人精品久久二区二区91 | 欧美一区二区三区在线观看 | 国产91网址 | 日韩中文字幕在线观看 | 精品国产乱码久久久久久牛牛 | 一级片免费在线观看 | 一本久久a久久精品亚洲 | 亚洲欧美视频在线观看 | 成人av播放 | 久久精品国产一区二区电影 | 亚洲美女网站 | 日韩欧美一区二区三区在线播放 | 国产综合精品一区二区三区 |