AI大模型在GIS中的應用
?前言
依稀記得十年前,我在上遙感概論專業課時,老師帶我們用ERDAS IMAGINE遙感圖像處理軟件做地物分類,每個人電腦上先發一段區域的遙感影像,進行人工判讀和標注,比如把這個區域影像上的林地標注出來喂給模型,再用這個模型去識別另外一個區域影像中的林地,機器學習中典型的的有監督學習應用。
大概5年前,在和公司研發人員閑聊時,聊到公司在做的“三調”項目,公司數據工程師當時正日夜對著國家下發的衛星影像,進行地物分類和矢量化的工作,不可謂不辛苦。當時和研發討論這個工作應該交給AI來做,至少先讓AI對全國遙感影像做一遍再交給人工檢查核對。純人工去做地物識別太慢了、成本太大,加上每個人對地物的理解還不一樣,人工判讀地物特征很容易出錯,非常考驗數據工程師的經驗和責任心。
SuperMap iDesktopX 11i(2024)-機器學習
現在來看,這類有監督學習的模型沒有大規模應用,一是標注成本太高而且準確率一般。二是模型泛化性太差,可能在南方某區域訓練的拿到北方去用就不好使了。
在當時,全國這么大范圍的遙感影像地物識別,想著這個工作應該互聯網科技巨頭可以做好,例如谷歌。
簡單解釋一下提到的幾個概念:
“三調”:是指中國的第三次全國國土調查,說白了就是查清全國每塊土地的現狀,這塊地是耕地,那塊地是居住用地,形成一張全國土地現狀的數據庫。
地物分類:網上找了一張圖,大概過程就是拿著國家下發的衛星影像,使用專業的GIS軟件,根據經驗進行地物的識別,把各種地物的邊緣輪廓給勾勒出來形成一個閉合的面,然后賦予它的地類屬性,存到空間數據庫。比如下面這張圖,紅色是我描的,這塊地應該是水田。“三調”工作對全國960萬平方公里的土地進行上述過程。
地物分類的過程像AI里面的人工標注數據。
GIS(地理信息系統)軟件是一種用于處理和分析地理數據的工具。簡單來說,它幫助我們以地圖的形式查看和理解數據,比如分析人口分布、規劃城市道路或者研究環境變化。手機中最常使用的地圖軟件、定位功能,就使用了GIS相關技術。
大模型的出現深刻改變著我們的生活,也正深刻改變著GIS。
交互層面的革新
GeoForge是由Ageospatial公司開發的一個基于大語言模型(GeoLLMs)的地理空間分析平臺。GeoForg的目的是使每個人都可以輕松進行地圖繪制和地理空間分析,無論您是外行還是專家。
下面是它的錄屏,從錄屏可以看出,交互基本由自然語言進行。
ArcGIS做的AI助手:
而現在的GIS軟件界面長這樣,跟一般的生產力工具軟件界面差不多。
ArcGIS Pro
QGIS
在這一波大模型的影響下,GIS軟件也將由圖形用戶界面(GUI)向自然語言交互界面演進。
最近在使用Claude、ChatGPT出的畫布模式,給了我一些啟發。ChatGPT canvas在原先對話框交互的基礎上增加了畫布,在遇到文字編輯和代碼編寫時會自動彈出畫布進行進一步展示和編輯,整體界面上還是保持簡單。
未來當我們打開GIS軟件時,應該是一個被大模型深度賦能的軟件。
左側可能是一個對話框,通過自然語言交互,支持文字或語音輸入,它能理解用戶的請求,知道如何使用GIS軟件的每個功能、地理專業術語。
對于不懂如何使用的操作、技巧、遇到的問題,可以隨時呼出大模型進行解答。
中間是一個地圖,由于GIS軟件的大部分操作都是圍繞地圖展開,地圖相當于畫布。
工具箱和上方導航欄的軟件操作可能是隱藏起來的。
大模型賦能的應用
下面我將就具體例子說一下我看到的和想到的。
地圖制圖:
套用今年很火的Agent概念,GIS領域的復雜任務自動化處理和分析將得到增強。
如今年中國地質大學提出的制圖MapGPT,利用大模型的推理能力,根據用戶請求,對任務進行規劃分解并調用一系列的制圖工具完成自動化制圖。
地圖初始化??添加地圖圖層??修改地圖元素參數??添加地圖元素??保存輸出地圖。
把繁瑣的操作交給大模型,用戶只發出指令-確認成果-修改-再發出修改指令,人機工協作,減輕工作量。
圖片
最近極海王昊老師使用大模型來生成各種風格的地圖,還挺有啟發的,我也對著照做了一遍,過程如下 ?現代與傳統GIS的爭論已經不重要
1.找一張參考地圖的樣式,將這張圖片發給多模態大模型(GPT-4o等),讓它分析地圖樣式并生成對應的json文件
2.找一個支持Google地圖樣式的網站,粘貼剛剛生成的json文件
3.生成效果如下:
對于地圖制圖,我覺得還可以嘗試利用文生圖模型來提供創意,幫助生成更好看的地圖。
屬性表的操作:
屬性表的操作,這是GIS軟件一個很重要的功能,本質上是寫SQL語句對屬性表的數據做增刪改查,為了降低普通用戶操作數據庫表的難度,GIS軟件提供了一些的操作功能來降低SQL的門檻。這里還可以進一步降低門檻,那就是利用NL to SQL的技術,直接把自然語言轉成SQL進行數據的增刪改查操作。
類似于這張圖:
ModelBuilder(模型構建器):
熟悉GIS軟件的應該都知道,模型構建器將一系列地理處理工具串聯在一起,以可視化編程的方式處理重復、復雜的處理任務。
可以借助大模型的推理能力進行空間計算任務的自動編排,這篇文章的最后具體闡述了實現過程。
就我個人看到的廠商例子和實踐而言,目前這個階段想讓大模型依靠自身的推理能力完成比較復雜的GIS任務規劃,是比較困難的。也許未來使用強化學習、思維鏈訓練的o1模型可以,也許我們需要GIS領域的思維鏈來對大模型做微調訓練。
所以今年很多廠商都推出了基于工作流的智能體構建,就是為了應對各專業領域復雜問題,如扣子這種大模型應用構建平臺。其實跟上面介紹的模型構建器很像,只不過扣子是圍繞大模型的能力展開,用低代碼的方式串聯工具和大模型來處理復雜任務,構建應用。模型構建器是圍繞空間分析算子的能力展開。
兩個類似功能的產品使用下來,還是扣子使用起來簡單,尤其有一個小功能對小白來說很適合,在代碼節點,可以隨時呼出AI,幫你寫代碼節點中的處理邏輯代碼,非常實用。
還有發布智能體、工作流模板到社區,可以分享給他人使用,交流使用技巧,賺積分等等,玩法多樣,對于活躍社區,促進軟件使用交流很有幫助。對于GIS軟件來說也是很有借鑒意義。
當然了,現在的大模型,配置一般的電腦很難帶得動,可以考慮在GIS軟件上做一個設置,這個設置可以連接云端的通用大模型API和對應的key,類似于之前體驗的沉浸式翻譯插件的做法,提供配置API key的功能 ?用了就離不開的網頁翻譯插件,沉浸式翻譯使用體驗
對于可以聯通互聯網的用戶,設置自己的大模型API key,用多少token,出多少token錢。
在內網的用戶,可以連接內網部署的大模型。
當然了,為了方便,GIS廠商可以設置一定的免費額度或者包月的形式提供給用戶,免去設置API的麻煩。
遙感影像、視頻識別:?
最近,深度學習之父辛頓拿了諾貝爾物理學獎,看了辛頓老爺子的簡史,2012年10月,辛頓團隊在佛羅倫薩舉行的計算機視覺會議上介紹了冠軍算法AlexNet,相比谷歌貓用了16000顆CPU,AlexNet只用了4顆英偉達GPU,學術界和產業界徹底轟動,AlexNet的論文成為計算機科學史上最有影響力的論文之一。
所以在2014年,我們上大學時用機器學習的遙感分類模型做地物提取是很正常的,因為那個時候深度學習才開始真正走進大眾視野。這篇文章寫了很多關于這段過往,推薦閱讀。 2012,改變人類命運的180天
以“Transformer”網絡架構為核心的大模型技術出現后,已經有不少基于(或者疊加)Transformer結構來優化遙感影像的識別和提取。
去年Facebook公布的SAM模型,也有很多廠商基于SAM模型來做遙感圖像分割提取的嘗試。
還有現在大模型廠商和自動駕駛廠商的推出的視覺語言模型,提高了自動駕駛系統的感知能力和決策水平,可實時監測并分析視頻畫面中的異常情況,并通過自然語言生成警報信息,應用在視頻監測場景很有應用潛力。
還有3D生成、三維重建,由于不太了解,這里就不贅述。
對公司產品、公司組織:
國內GIS軟件行業,定制化、項目化比較多,導致人力成本大,利潤率不高。AI 大模型寫代碼能力帶來人效的提升,也許未來項目制不是問題?
不難想象,隨著AI應用的不斷深入到行業,能力不斷強化,個體能效不斷提升,這將極大地降低人力成本,對于人力密集型和知識密集型服務業市場將是巨大沖擊,比如律師,會計,編輯,程序員等行業。
有了AI加持,同樣的事情可能會使用很少的人就能搞定,進而顯著降低了企業在開發軟件時所需的人力成本,提升企業的市場競爭優勢。這樣傳統的人力外包型業務將快速被服務型AI應用所替代,外包化將更加流行。
地理信息系統及其他地理空間解決方案,對于分析和理解我們周圍的世界至關重要,但對許多人來說,使用和理解起來卻十分困難。
對于初學者或者只是想利用GIS軟件簡單做一些成果的用戶來說,GIS軟件地理專業術語多,操作復雜,對于新手極其不友好,在易用性方面有很大的改進空間。
總之,這波大模型浪潮下,GIS軟件的智能化和易用性還有很大提升空間。
