當空間數據遇上機器學習,城市的顏值有了新的度量方法
每個人都生活在一定的空間,城市的各項公共服務設施也需要占據一定的空間。通過對這些空間數據的挖掘和分析,我們能夠比以往更科學、更清晰地觀察我們所在的城市。
把機器學習應用到空間數據挖掘
我們公司主要做的是空間數據挖掘,在國內外,類似的公司目前并不是很多。后面要提到的很多案例,圖表顏色看起來花花綠綠的,其實都是基于我們自己的產品和研究做出來的。
下面這張圖算是我們的代表性產品之一,這張圖的左上角區域是它的地圖區域,左下角區域的折線圖反映的是一些數值、特征值,右側則是測試參數的設置、提交運算的區域。
雖然我們用了很多機器學習算法或者空間挖掘的一些算法,但是你會發現,操作起來還是非常簡單的。
有人會問我們的數據來源是哪里?
我們和各種數據供應商有密切合作,有20多個大類、1000多個小類的POI興趣點。除此之外,我們還獲得了一些人口遷徙、房地產、企業等各類數據。
在進入具體的案例分析前,需要指出的是,這些案例都是基于城市各維度做的一些分析,而在這其中,機器學習扮演著重要的作用。結合具體的一個個案例,讓大家對空間數據挖掘有一個更清晰的認識,這也是我今天要分享的主題。
案例一:通過機器學習給城市“畫像”
先看下面這張圖:
在這張圖中,我們通過各種POI興趣點的數據,用可視化來描繪城市用地情況。圖中的各個分類其實我們都提前選好了參數,再利用機器學習自動分類。然后再選好用哪些維度來給城市“畫像”。
從圖中可以看到哪些區域是休閑娛樂休閑功能比較集中的地方、哪些是居住比較集中的地方、哪些是混合型的地方,以及能看出哪里是工廠、工業集聚區。通過這樣分類,我們可以快速了解這些用地的分布情況。
接著再看第二張圖。
這張圖是基于上一張圖的數據,我們做了更進一步的聚類,你會發現城市里邊的用地情況顯得更加清晰一些。
我雖然沒有去過南昌,但是通過這張圖我可以很容易分辨出來哪里是老城區,哪里是新城區,哪里是邊緣的工業用地區,哪里可能是新開發的居住區等等。
案例二:發現北上廣深地鐵站周圍的畫風
可能前面兩張圖因為涉及到具體的業務應用場景,對于非土地研究行業的人來說可能相對較難理解。但下面這個例子會更好理解一些。
我們同樣用機器學習的算法,通過POI興趣點數據來識別一下北上廣深四個城市的地鐵站周邊500米的情況。
可以看到,北上廣深四個城市的差異還是非常明顯的。
比如說北京,一眼望去,綠色的圓點較多,這代表的是其周圍公共服務設施比較集中。這些公共服務設施包括政府機關辦公地點、圖書館、文化場館等等。
再看上海,藍色的圓點比較多,這指的是地鐵站周圍各種居住小區較多。
而廣州,紅色和紫色的圓點更多,這指的是地鐵站周邊娛樂休閑類場所更多。從這些地鐵站出來,更容易找到吃喝玩樂的地方。
深圳,則算是比較均衡的,不同顏色的分布并沒有一個明顯的特征。
案例三:從公共交通擴張看一座城市的“生長”
前面介紹的都是城市中的土地利用情況分析,接下來講一講交通等城市公共服務設施的情況。
這里以武漢市為例,下圖可以看到2014年到2017年它的軌道站點數量增長非常快。
再來看公交站點的情況:從2014年的接近3000個到2016年3500多個,一直到2017年有將近5000個了。
然后我們把軌道交通的站點和公共交通的站點,聚合到城市用地上,這可以看做是公共交通的便捷度評價指標,可以看出這幾年武漢市的公共交通便捷度確實發生了很大變化。
緊接著,我們再通過機器學習方法,研究武漢市的公共服務設施的分布變化。見下面兩張圖:
從這兩張圖我們可以看到,從2014年到2017年,隨著公共交通便捷度的不增增加,武漢市的土地利用的混合程度也發生了大量變化。原來可能沒有那么多POI興趣點,但現在人的活躍地點增加了。
上圖還能發現,隨著公共交通的發展,武漢市的單一類型的用地是逐漸減少的。
通過這個研究,我們得出來的結論是,隨著城市公共交通便捷度的增加,城市內部的活力也在逐漸增加。
案例四:通過OD數據和手機信令觀察城市內部聯系
下面再來舉兩個機器學習在研究城市通勤方面的具體例子。
首先來看我們隊深圳出租車OD(從起點到終點)路徑的分析圖:
我們拿到了深圳市的出租車運行軌跡數據,然后利用機械學習幫我們分辨出深圳市出租車的OD數據模式,機器自動幫我們分出來非常顯著的兩個類型:左邊呢,是早高峰的時候,你可以看到車流從北到南的比較多,右邊這張綠的的圖則是晚高峰的時候,從南到北的比較多。
通過這個分析,我們不僅了解到深圳居民乘出租車的模式,還能發現深圳市的南北向交通可能是有不足,而深圳市的公共交通現在是東西向的較多。
為什么會有這樣的結論?因為出租車往往是人們公共交通出行的一種補充,只有在公共交通可能不太方便的時候,人們才會選擇出租車多一點。
再來看看上海居民的通勤情況。這里我們是基于手機信令數據做了各區域間聯系強度的分析,其中的色塊代表著不同的分區:
大家可能對手機信令不太了解,這其實是反映人們出行或者活動的軌跡。我們一般使用手機的時候,運營商每隔一段時間,會對你的手機進行一次定位,然后運營商會判斷你處在哪個基站的服務范圍。
如果你前一個時刻在A基站服務范圍內,然后后一個時刻又到了另外一個基站服務范圍,說明你在移動,我們就可以判斷你是從A點移動到了B點,所以能夠反映人的出行規律。
然后我們用這樣的數據做了上海市的分區,這些不同的色塊代表的我們通過這些數據算出來的聯系強度。
從上圖中,我們發現了一個非常有意思的現象:在上海市范圍內,奉賢、金山、松江等遠郊地區,你會發現它的分區和它的行政邊界是比較吻合的,這就說明這些郊區的居民一般都不太會來中心城區活動,而是在自己的行政區范圍內活動。
而你看那些越靠近中心城區的地區,分區的劃分跟它的行政邊界的關系就會越不一致。比如說寶山區,可以看到這里的居民在楊浦區很活躍,是不是說明有很多在楊浦區工作的人居住在寶山呢?
此外,當我們按照人的出行規律進行分區之后,還可以把區和區之間的聯系強度用可視化的方式展現出來:
上面的案例,主要是介紹了我們目前在利用機器學習進行空間數據挖掘方面的一些具體嘗試,我們希望能夠提供一個一站式的空間數據挖掘平臺,既有數據,又有空間數據處理的工具,服務更多的數據人。