成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一張圖實現街道級定位,端到端圖像地理定位大模型AdressCLIP登ECCV2024

人工智能
中科院自動化所和阿里云一起推出了街景定位大模型,只要一張照片就能實現街道級精度的定位。有了模型的幫助,再也不用害怕遇到種草“謎語人”了。

拔草星人的好消息來啦!

中科院自動化所和阿里云一起推出了街景定位大模型,只要一張照片就能實現街道級精度的定位。

有了模型的幫助,再也不用害怕遇到種草“謎語人”了。

比如給模型看一張舊金山的街景之后,它直接給出了具體的拍攝位置,并列舉了附近的多個候選地址。

圖片

該模型名為AddressCLIP,基于CLIP構建。

相關論文AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization已入選頂會ECCV2024。

圖片圖片

傳統的圖像位置識別往往致力于以圖像檢索的方式來確定圖像的GPS坐標,這種方法稱為圖像地理定位。

但GPS對于普通人來說晦澀難懂,并且圖像檢索需要建立并維護一個龐大的數據庫,難以本地化部署。

本篇工作提出了更加用戶友好的,端到端的圖像地理定位任務。二者的對比示意圖如下:

圖片圖片

針對這個任務,為了實現上述效果,研究人員主要從數據集構建與定制化的模型訓練兩方面入手開展了研究。

圖像地址定位數據集構建

圖像地址定位本質上是需要將街景圖像與地址文本進行圖文模態的對齊,因此首先需要收集大量的圖像-地址對。

考慮到現有的用于多模態訓練的圖文數據中包含地址信息的數據比例過于稀少,研究人員選擇基于圖像地理定位中的圖像-GPS數據對進行數據集的構造。

具體來說,通過使用地圖中的Reverse Geocoding API,可以對一個GPS查詢到一系列的相近的地址。

接著,通過篩選、投票等數據清洗機制,可以過濾得到每個圖像的街道級地址文本。

這一過程如下圖所示:

圖片圖片

然而,考慮到街道本身的長短分布差異巨大,導致這個分布極度不均衡,同時街道級別的定位精度仍然過于粗糙。

因此,研究人員模仿人類描述位置的習慣,對于街道級別的地址進行了進一步的語義地址劃分。

該過程通過使用道路交叉的十字路口等信息來對地址信息進行加強,其具體過程以及最終形成的地址文本描述如下:

圖片圖片

最終,論文構造了位于兩個城市,三種不同尺度的數據集,相關數據信息如下:

圖片圖片

AddressCLIP具體實現

有了上述街景-地址文本的數據準備之后,似乎直接模仿CLIP的方式進行對比學習的微調即可。

但考慮到本任務的圖像-文本數據對的語義關聯十分微弱,這和CLIP預訓練的數據存在著比較大的差異。

因此研究人員首先從數據和損失函數層面進行了對CLIP原始的訓練框架進行了改進。

具體來說,借助以BLIP為代表的多模態生成模型的圖像標注能力,研究人員對于訓練數據中每個街景圖像進行了語義文本的自動化標注。

圖片圖片

然后,作者將語義文本與地址文本按照一定規則直接進行拼接,顯式的彌補了本任務和CLIP預訓練任務的差異。

這樣一來,微調過程優化更加容易,并且也能過通過語義隱式增強了地址文本的判別性。

此外,考慮到圖像特征,地址文本特征在預訓練特征空間的分布可能是十分不均勻的。

受到流形學習的啟發,作者認為本任務中圖像-地址文本的理想特征應該位于一個和真實環境匹配的低維流形上。

具體來說,研究人員們引入了在真實地理環境中距離相近的兩個點,其地址與圖像特征在特征空間也應當接近,反之亦然這一假設。

利用圖像與圖像兩兩之間歸一化后的真實地理距離來監督它們在特征空間中的距離,從而實現了圖像特征與真實地理環境的在距離層面的匹配,使得模型學到的特征空間更加均勻。

因此,AddressCLIP將經典的CLIP損失優化為圖像-地址文本對比損失,圖像-語義對比損失以及圖像-地理匹配損失,最終實現了準確、均勻的圖像-地址文本對齊。

圖片圖片

完成上述訓練后,AddressCLIP可以通過給定候選地址集的形式進行推理。

值得一提的是,得益于模型將圖像與各種地址的良好對齊,推理所用的候選文本可以是十分靈活與多樣的形式,而非一定要按照訓練集的書寫規則。

效果優于通用多模態模型

在定量實驗結果中,團隊主要將模型與與zero-shot的CLIP,直接對齊地址的CLIP以及各種CLIP微調策略方法等進行對比。

可以看到,AddressCLIP在不同數據集,不同指標上均優于各個所比較方法。

圖片圖片

在定性實驗中,論文主要展示了AddressCLIP在推理形式上的靈活性與泛化性。

通過給定不同精細程度的地址文本的查詢(如街區,街道,子街道),模型都可以在測試集圖像上展示出與其真實覆蓋地理分布一致的激活。

圖片圖片

此外,研究人員也暢想了這一任務與數據集與多模態大模型結合的場景。

通過將數據集構造成關于地址問答的多輪對話形式,團隊對LLaVA-1.5-vicuna進行了視覺指令微調,實現了對圖像地址的生成式識別。

在與前沿多模態模型的對比中展現出明顯的優勢,尤其是針對圖像中不存在地標與明顯線索的圖像。

圖片圖片

作者預計,未來這一技術可以進一步擴展應用于社交媒體基于位置的個性化推薦上,或者與多模態大模型結合進行更加豐富的地址,地理信息相關問答,提供更加智能的城市、地理助手。

論文地址:https://arxiv.org/abs/2407.08156

項目主頁:https://addressclip.github.io

GitHub:https://github.com/xsx1001/AddressCLIP

責任編輯:武曉燕 來源: 量子位
相關推薦

2010-03-06 08:56:22

Chrome地理定位

2013-12-31 09:20:42

2011-10-26 10:33:41

IBMSPSS

2011-11-17 17:04:43

AdobeAIRAndroid

2009-11-20 09:25:50

TwitterAPI

2024-07-09 17:04:07

2025-01-16 10:11:58

2021-02-07 09:01:10

Java并發編程

2024-09-10 12:11:18

2021-02-01 08:41:45

Flink語義數據

2020-09-01 13:30:03

人工智能機器學習技術

2022-09-24 13:21:34

Java服務異常

2025-04-24 09:38:56

2022-09-02 10:20:44

網絡切片網絡5G

2019-09-11 10:12:12

華為

2021-06-02 07:07:09

Flink處理語義

2015-03-10 10:15:27

AppleWatch開發Swift
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本久草 | 成人精品一区二区户外勾搭野战 | 欧美成人久久 | 精品国产乱码久久久久久闺蜜 | 国产视频福利一区 | 精品国产乱码久久久久久影片 | 成人在线精品视频 | 国产黄色在线观看 | 亚洲三区在线观看 | 成人免费网站www网站高清 | 亚洲精品成人网 | 亚洲视频在线一区 | 成年人免费看 | 欧美成人免费电影 | 欧美成人a∨高清免费观看 欧美日韩中 | 羞羞视频网站免费观看 | 亚洲成av片人久久久 | 国产欧美一区二区精品忘忧草 | 天天弄天天操 | 91国内外精品自在线播放 | 精品视频免费 | 国产视频中文字幕 | 欧美成人一区二区三区片免费 | 免费毛片网站在线观看 | av乱码| 国久久 | 中文亚洲字幕 | 欧美精品网站 | 亚洲国产成人精品久久 | 国产黄色麻豆视频 | 国产精品久久久久一区二区三区 | 国产精品a级 | 91免费电影 | 放个毛片看看 | 日韩视频精品在线 | 91精品国产乱码久久久久久久 | 中文字幕亚洲免费 | 亚洲一区免费视频 | 精品免费看 | 天堂网中文字幕在线观看 | 久久国产精品无码网站 |