成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命

發(fā)布于 2025-3-24 00:27
瀏覽
0收藏

融合地理定位與對話能力的新型多模態(tài)模型

圖像地理定位技術(shù)在過去幾年取得了顯著進(jìn)展,但傳統(tǒng)模型僅限于提供GPS坐標(biāo),缺乏對位置的深入理解和與用戶進(jìn)行有意義對話的能力。中佛羅里達(dá)大學(xué)的研究團(tuán)隊(duì)最近提出了一種創(chuàng)新解決方案——GAEA(Geolocation Aware Conversational Model),這是首個(gè)將精確地理定位能力與豐富對話功能相結(jié)合的開源多模態(tài)模型。

GAEA不僅能確定圖像的拍攝位置,還能提供關(guān)于該位置的詳細(xì)信息,包括附近的地標(biāo)、自然景觀、餐廳、醫(yī)療設(shè)施及休閑區(qū)域等,從而為用戶提供全面的地理環(huán)境理解。

傳統(tǒng)地理定位的局限性與GAEA的創(chuàng)新

傳統(tǒng)圖像地理定位任務(wù)面臨諸多挑戰(zhàn),包括季節(jié)變化、地理和氣候多樣性、太陽角度變化以及圖像分布不均等問題。盡管如GeoCLIP、PIGEON等最新模型在全球范圍內(nèi)的地理定位準(zhǔn)確性方面取得了顯著進(jìn)展,但它們?nèi)匀蝗狈︻A(yù)測位置的地理理解和與用戶交流的能力。

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命-AI.x社區(qū)


如上圖所示,GAEA能夠在回答關(guān)于景總結(jié)、位置和地理背景的不同問題時(shí)做出準(zhǔn)確預(yù)測。雖然GPT-4o-mini可以給出與區(qū)域相關(guān)的正確建議,但GAEA能提供與圖像位置鄰近的準(zhǔn)確設(shè)施信息。

另一方面,雖然大型多模態(tài)模型(LMMs)如GPT-4o和Gemini-2.0等具有對話能力,但它們在地理定位等專業(yè)下游任務(wù)中表現(xiàn)不佳,預(yù)測結(jié)果往往不準(zhǔn)確,在許多情況下甚至比隨機(jī)猜測更糟。

GAEA模型通過融合地理定位和對話能力,彌補(bǔ)了這一差距,為用戶提供了一個(gè)能夠準(zhǔn)確識別位置并提供相關(guān)信息的交互式工具。

GAEA-1.6M:構(gòu)建地理感知對話數(shù)據(jù)集

研究團(tuán)隊(duì)面臨的主要挑戰(zhàn)之一是缺乏能夠訓(xùn)練這類模型的大規(guī)模數(shù)據(jù)集。為解決這一問題,他們精心構(gòu)建了GAEA-1.6M數(shù)據(jù)集,這是一個(gè)包含超過80萬張圖像和約160萬個(gè)問答對的綜合數(shù)據(jù)集。

數(shù)據(jù)集構(gòu)建過程主要包括下幾個(gè)步驟:

  1. 多源地理多樣化圖像采集:研究團(tuán)隊(duì)從MediaEval 2016 (MP-16)、Google Landmarks v2 (GLDv2)和CityGuessr68k等多個(gè)數(shù)據(jù)源采集了地理多樣化的視覺樣本。他們使用GeoCLIP對MP-16中的300萬張戶外圖像進(jìn)行過濾,保留了可地理定位的圖像,并使用S2-Cells技術(shù)確保全球覆蓋的均衡性。
  2. 元數(shù)據(jù)整合:為每張圖像添加了豐富的元數(shù)據(jù),包括:
  • OpenStreetMap (OSM)提供的1公里半徑內(nèi)的地理信息
  • 國家特定的地理線索(從GeoGuessr游戲社區(qū)資源Plonkit獲取)
  • K?ppen-Geiger氣候區(qū)域分類
  • 交通方向數(shù)據(jù)
  • 土地覆蓋使用統(tǒng)計(jì)

Places2數(shù)據(jù)庫的場景標(biāo)簽

  1. 問答對生成:基于收集的圖像和元數(shù)據(jù),研究團(tuán)隊(duì)生成了多樣化的問答對,分為三個(gè)子集:
  • 對話子集

利用OSM元數(shù)據(jù)生成38萬個(gè)對話QA對,包括短答案、多選和是非題

  • 地理定位子集

包含82萬個(gè)圖像-問題對,旨在幫助模型預(yù)測圖像的正確位置

  • 推理子集

生成38.5萬個(gè)知識驅(qū)動的長問答對,增強(qiáng)模型的細(xì)粒度推理能力

GAEA-1.6M數(shù)據(jù)集覆蓋了234個(gè)國家和地區(qū)、40,000多個(gè)城市和7個(gè)大洲,是目前最大、最全面的可地理定位和對話QA對集合。

GAEA-Bench:評估地理定位對話能力的基準(zhǔn)

為了定量評估LMMs的對話能力并解決地理定位環(huán)境中基準(zhǔn)數(shù)據(jù)集的稀缺問題,研究團(tuán)隊(duì)提出了GAEA-Bench,這是一個(gè)包含4,000個(gè)對話問題樣本的多樣化集合。

如上圖所示,GAEA-Bench旨評估各種LMM在不同問題類型下的對話能力,包括多選題(MCQs)、是非題(T/F)以及短答和長答視覺問答(VQAs)。研究團(tuán)隊(duì)從MP-16中精心選擇了4,000個(gè)樣本,并生成了相應(yīng)的OSM元數(shù)據(jù),使用GPT-4o生成問答對。

GAEA-Bench包含:

  • 1,000個(gè)短形式問題(SVQA)
  • 1,000個(gè)多選題(MCQ)
  • 1,000個(gè)是非題(T/F)
  • 1,000個(gè)長形式問題(LVQA)

這些問題類型的多樣性使得GAEA-Bench能夠全面評估模型的地理定位和對話能力。

研究團(tuán)隊(duì)從OSM元數(shù)據(jù)中精心選擇地理標(biāo)簽來生成問答對。

GAEA架構(gòu)與訓(xùn)練

GAEA基于開源模型Qwen2.5-VL的架構(gòu),該架構(gòu)無縫集成了:

  1. 視覺編碼器
  2. 視覺到語言的投影器
  3. 語言模型

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命-AI.x社區(qū)

如上圖所示,GAEA采用單階段訓(xùn)練策略,包括可訓(xùn)練的MLP層和LLM權(quán)重。重新設(shè)計(jì)的視覺變換器(ViT)架構(gòu)融合了2D-RoPE和窗口注意力機(jī)制。投影器是一個(gè)兩層多層感知器(MLP),用于對齊ViT的原始補(bǔ)丁特征,并通過連接圖像嵌入和文本嵌入提供最終表示。

訓(xùn)練細(xì)節(jié)包括:

  • 在GAEA-1.6M的所有三個(gè)子集(地理定位、推理和對話)上進(jìn)行單階段微調(diào)
  • 采用LoRA微調(diào)技術(shù),秩r=16,α=32
  • 視覺到語言MLP投影器未凍結(jié)
  • 應(yīng)用動態(tài)分辨率處理:小于448×448的圖像上采樣,超過1000×1000的圖像下采樣
  • 模型訓(xùn)練一個(gè)epoch,共12,600步

評估與結(jié)果

研究團(tuán)隊(duì)從三個(gè)關(guān)鍵維度定義了評估過程:

  1. 對話準(zhǔn)確性
  2. 定量地理定位準(zhǔn)確性
  3. 分類準(zhǔn)確性

對話評估

研究團(tuán)隊(duì)在GAEA-Bench上對比了11個(gè)最先進(jìn)的開源和閉源LMM。他們使用GPT-4o作為評判,根據(jù)不同的標(biāo)準(zhǔn)對各類問題的回答進(jìn)行評分:

  • 多選題和是非題使用準(zhǔn)確性評分
  • 短答案問題評估正確性
  • 長答案問題評估一致性、相關(guān)性和地理正確性

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命-AI.x社區(qū)

上圖展示了評估流程,突出了GAEA-1.6M中引入的各種問題類型。研究團(tuán)隊(duì)使用GPT-4o作為評判來對這些回答進(jìn)行評分。

定量地理定位評估

研究團(tuán)隊(duì)將GAEA與六個(gè)最先進(jìn)的地理定位模型進(jìn)行了比較,包括PlaNet、CPlaNet、ISNs、TransLocator、GeoDecoder和PIGEON,評估基準(zhǔn)包括IM2GPS、IM2GPS3k和GWS15k。他們提示各種LMM輸出圖像所屬的城市和國家,使用GeoPy檢索GPS坐標(biāo)并計(jì)算與地面真值的距離,比較輸出與1公里、25公里、200公里、750公里和2,500公里的距離閾值。

分類準(zhǔn)確性

GAEA:突破傳統(tǒng)地理定位的多模態(tài)對話革命-AI.x社區(qū)

上圖展示了城市和國家級別的分類準(zhǔn)確性流程。研究團(tuán)隊(duì)引入了三個(gè)新數(shù)據(jù)集:GeoDE、DollarStreet和CityGuessr68k,用于城市和國家分類任務(wù)的評估。

實(shí)驗(yàn)結(jié)果與討論

GAEA在GAEA-Bench上的表現(xiàn)優(yōu)于所有其他模型,平均準(zhǔn)確率達(dá)到66.06%,超過GPT-4o 8.28%,超過第二好的開源模型LLaVA-OneVision 25.69%。

在標(biāo)準(zhǔn)地理定位評估中,盡管GAEA是在具有地理定位能力的大規(guī)模對話數(shù)據(jù)集上訓(xùn)練的,但它在與專門的編碼器模型相比時(shí)取得了競爭性結(jié)果。在IM2GPS3k上,GAEA在所有四個(gè)距離閾值上都優(yōu)于GaGA,在25公里半徑處超過2.5%,在國家級別超過3.66%。

上圖展示了城市和國家標(biāo)簽的分類準(zhǔn)確性,GAEA建立了強(qiáng)大的基線,在性能上超過了幾個(gè)最新的LMM。

GAEA的應(yīng)用前景與意義

GAEA的創(chuàng)新在于它不僅能夠確定圖像的地理位置,還能提供關(guān)于該位置的豐富信息,這在多個(gè)領(lǐng)域具有直接應(yīng)用價(jià)值:

  1. 旅游業(yè):游客可以通過拍攝照片快速了解周圍環(huán)境、歷史背景、文化特色以及附近的餐廳、酒店等服務(wù)設(shè)施。
  2. 導(dǎo)航與探索:用戶可以通過圖像識別位置,并獲取關(guān)于該區(qū)域的詳細(xì)信息,包括交通方式、地形特點(diǎn)等。
  3. 城市規(guī)劃:規(guī)劃人員可以利用GAEA分析不同地區(qū)的特征和設(shè)施分布,為城市發(fā)展提供參考。
  4. 安全與應(yīng)急:在緊急情況下,可以通過圖像快速確定位置并獲取附近的醫(yī)療、警察等緊急服務(wù)設(shè)施信息。
  5. 教育與研究:GAEA可以作為地理教育的工具,幫助學(xué)生了解不同地區(qū)的地理、文化和歷史特征。

結(jié)論與未來展望

GAEA是首個(gè)具有專門地理定位能力的交互式對話模型,在大規(guī)模對話數(shù)據(jù)集GAEA-1.6M上進(jìn)行了專門訓(xùn)練。研究團(tuán)隊(duì)精心設(shè)計(jì)了數(shù)據(jù)集,以增強(qiáng)GAEA的推理、對話能力和地理定位準(zhǔn)確性。他們從MP-16、GLDv2和CityGuessr68k中收集了可地理定位的圖像,并用輔助上下文和元數(shù)據(jù)(如地理線索和氣候區(qū)域)豐富了這些圖像。

除了高質(zhì)量的指令集,研究團(tuán)隊(duì)還提出了GAEA-Bench,這是一個(gè)全面的基準(zhǔn),可評估LMM在多種問題類型上的表現(xiàn),包括多選題、是非題、短答和長答視覺問答。結(jié)果表明,GAEA在GAEA-Bench上優(yōu)于最近的LMM,通過利用OpenStreetMap (OSM)數(shù)據(jù)展示了強(qiáng)大的地理定位和對話能力。

這項(xiàng)研究為地理定位領(lǐng)域開辟了新的研究方向,將傳統(tǒng)的坐標(biāo)預(yù)測任務(wù)擴(kuò)展為更加豐富、交互式的對話體驗(yàn)。隨著技術(shù)的進(jìn)一步發(fā)展,我們可以期待看到更多融合地理信息系統(tǒng)和大型語言模型的創(chuàng)新應(yīng)用,為用戶提供更加智能、自然的地理信息交互方式。

未來的研究方向可能包括:

  1. 進(jìn)一步提高模型在非常規(guī)場景和罕見地點(diǎn)的地理定位準(zhǔn)確性
  2. 增強(qiáng)模型對時(shí)間變化(如季節(jié)、晝夜、年代)的理解能力
  3. 擴(kuò)展模型的多語言支持,使其能夠在更多語言環(huán)境中提供地理信息
  4. 探索將GAEA與其他模態(tài)(如音頻、視頻)結(jié)合的可能性
  5. 開發(fā)更加輕量級的模型版本,使其能夠在移動設(shè)備上運(yùn)行

GAEA的出現(xiàn)標(biāo)志著地理定位技術(shù)進(jìn)入了一個(gè)新的階段,不再局限于簡單的坐標(biāo)預(yù)測,而是向著更加智能、交互式的方向發(fā)展,為用戶提供更加全面、豐富的地理信息體驗(yàn)。

論文:???https://arxiv.org/abs/2503.16423???

github:????https://ucf-crcv.github.io/GAEA/???

本文轉(zhuǎn)載自??頓數(shù)AI??,作者:蔥蔥

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: av中文字幕在线 | 亚洲成人福利 | 综合久久av | 亚洲天堂中文字幕 | av中文字幕在线观看 | 日韩欧美在线观看视频网站 | 亚洲精品一区二区三区 | 午夜影院免费体验区 | 欧美在线国产精品 | 男人的天堂中文字幕 | 国产精品国产成人国产三级 | 欧美一区二区三区的 | 日韩在线看片 | 亚洲+变态+欧美+另类+精品 | 91精品国产一二三 | 黄a网| 天天综合操 | 久热精品在线播放 | 久久精品亚洲欧美日韩久久 | 国产 日韩 欧美 在线 | 日本不卡一区二区三区在线观看 | 中文字幕一区二区三区不卡 | 日韩欧美一区二区三区四区 | 日韩久久在线 | 欧美黄色网 | 嫩草研究影院 | 免费激情网站 | 色综合视频在线 | 狠狠操在线 | 亚洲国产一区二区三区 | 2018国产大陆天天弄 | 成人精品一区二区户外勾搭野战 | 狠狠天天 | 日韩精品久久一区 | 成人国产精品久久久 | 精品国产精品国产偷麻豆 | 久久男女视频 | 中文字幕爱爱视频 | 在线国产一区二区 | 日韩欧美国产成人一区二区 | 欧美激情精品久久久久久免费 |