為什么我們的數(shù)據(jù)還不夠開放?
6,000英里的馬路,600英里的地鐵,400英里的自行車道和0.5英里的電車軌道——這是羅斯福島上測量到的數(shù)據(jù)。
上述基礎(chǔ)設(shè)施數(shù)據(jù),來自市政機(jī)構(gòu)的發(fā)布,比如:交通部會告訴你未來將有多少通向國外的公路,大紐約交通運輸管理局會自信滿滿告訴你一條地鐵軌道延伸的長度,同樣,大多數(shù)市政機(jī)構(gòu)會給出類似的數(shù)據(jù)。
以下是來自出租車管理委員會的報告:紐約市范圍內(nèi)大概有13,500輛出租車。
這些數(shù)據(jù)是不是很有趣?但是你有想過這些數(shù)據(jù)來自何處嗎?
擁有這些數(shù)據(jù)固然很好,政府機(jī)構(gòu)里總有人也許會說:或許我們的市民對這個或者那個數(shù)字感興趣呢。所以他們就重新將原始數(shù)據(jù)撿拾起來,做些加加減減的運算,成了我們剛才看到的數(shù)字。
那么問題來了——我們怎么整理這些數(shù)字呢?
事實上,我們對這個城市有著太多的好奇和疑問,以至于這些機(jī)構(gòu)無法回答詳盡,如此以來,這些數(shù)據(jù)并沒有發(fā)揮出應(yīng)有的作用。
我們的政策制定者并沒有忽視這個問題,早在2012年,Bloomberg市長就簽署了一個數(shù)據(jù)開放的法案,該法律強(qiáng)制要求城市機(jī)構(gòu)把他們得到的所有數(shù)據(jù)公開到線上且可搜索,在我們看來,這已經(jīng)是全國范圍內(nèi)最全面和最有雄心的數(shù)據(jù)開放法案了。在簽署法案的這兩年以來,開放數(shù)據(jù)門戶上已經(jīng)公布了一千來條的數(shù)據(jù),這真的很酷。
所以你不必只是單純地去計算出租車的數(shù)量,而是應(yīng)進(jìn)一步的問一些問題,比如:紐約的交通高峰是在什么時刻?交通擁堵的確很令人頭疼呀。
我們將出租車數(shù)量只看成數(shù)字,而GPS記錄儀則記錄走街串巷的每一次路程——根據(jù)這些數(shù)據(jù),我做了一個紐約出租車全天時速均值的圖表:從午夜時分到早上5點18分,車速一直在增加,隨后一切都在變慢,直到早上8點35分,平均車速達(dá)到了11.5英里每小時并一直保持著這個車速,一直到下午六點半——這意味著,出租車全天都在以這個速度行駛,所以,紐約市沒有交通高峰“時刻”,紐約“全天”都處于高峰狀態(tài)。
這是不是很有道理的樣子?這些都是數(shù)據(jù)的功勞。
如果你是交通規(guī)劃師,你會很有興趣了解這個情況;如果你想要快點去到某個地方,只需要把鬧鐘定在早上4點45分,那可就萬事大吉了。
剛才我所說的“紐約全天高峰”這個結(jié)論并不是自然而來的,而是要歸功于我們的信息自由法。
在出租車委員會的網(wǎng)站上,你想要獲得你想要的數(shù)據(jù)的話,有一張表格要填,然后就坐等他們聯(lián)系你吧——有一個叫做Chris Wong的人真的就這么做了。Chris來了之后,他們要求他帶一個全新的硬盤,全新的哦,5個小時之后,數(shù)據(jù)就都拷貝下來了。像Chirs這樣的人希望數(shù)據(jù)能夠公開,于是把他拿到的數(shù)據(jù)掛在網(wǎng)上供下載,這就是剛才“紐約全天高峰”的原始數(shù)據(jù)的來源。
這個結(jié)論不得不讓我們大吃一驚,當(dāng)然GPS記錄儀也十分給力。
市民們需要大老遠(yuǎn)拿一個移動硬盤取得這些數(shù)據(jù),才得以讓政府部門數(shù)據(jù)公開——這樣的“公開”真的夠“公開”了嗎?這充其量只是“公共數(shù)據(jù)”,還算不得我們期待的“數(shù)據(jù)公開”呢。
我們希望市民可以足不出戶就可以去分析政府的公開數(shù)據(jù),而不是填寫申請表長途跋涉帶著硬盤漫長等待……
我還根據(jù)自行車事故數(shù)量,做了一個紐約市最危險的十字路口的地圖。地圖上紅色部分最為危險。
由圖可知,Manheim以東,尤其是它的低洼路段,是自行車事故高發(fā)路段,這可以理解,因為很多自行車從橋上下來;但是像Williamsburg和皇后大道(Avenue Queens)為什么也是危險地區(qū),這是值得城市規(guī)劃者考慮的。
這才是我們需要的數(shù)據(jù),這才是我們一直在尋找的數(shù)據(jù),這些數(shù)據(jù)并不是憑空得來的,它們經(jīng)過了有心人對原始數(shù)據(jù)的再挖掘。
我們在呼吁開放數(shù)據(jù)的時候,遇到了另一個問題:PDF文件格式。
或許有人曾經(jīng)嘗試過從PDF上拷貝數(shù)據(jù),這顯然是吃力不討好的活計。而你們需要的自行車事故數(shù)據(jù),來自紐約警署,并且是成百上千頁的PDF文件——要知道,光是復(fù)制粘貼這些數(shù)據(jù),可能就要花上一兩百個小時呢。
有一個叫做John Kraus的人,他沒有選擇復(fù)制粘貼,而是開發(fā)了一個“紐約警署數(shù)據(jù)解碼程序”,然后登陸紐約警署官網(wǎng),下載了這些人們需要的數(shù)據(jù),并進(jìn)行內(nèi)容抓取,將結(jié)果放在網(wǎng)上,人們才得以做出“紐約市最危險十字路口”的地圖。
從我們獲取的數(shù)據(jù)來看,每次事故都是茫茫表格中的一列,很難想象:我們需要多少這樣的PDF才能完成這個地圖呢?我們能獲得這些數(shù)據(jù)的PDF當(dāng)然已經(jīng)很好了,畢竟我們有“數(shù)據(jù)解碼程序”,可是對于想要分析數(shù)據(jù)的市民來說,PDF格式遠(yuǎn)遠(yuǎn)不夠,甚至太浪費時間。
我們的城市應(yīng)該在“數(shù)據(jù)易得”和“數(shù)據(jù)易讀”這兩方面更加努力才行呀。
值得肯定的是,最近幾個月,許多職能部門都公開了他們的數(shù)據(jù);但是有太多的數(shù)據(jù)還被禁錮在PDF格式里,觸不可及,比如犯罪數(shù)據(jù)、城市預(yù)算,只提供了PDF版本。試想一下,那些決定城市預(yù)算的立法者們,他們也無法對預(yù)算進(jìn)行詳細(xì)分析,那他們投票的意義是不是大打折扣了呢。
如此想來,我們的城市也許應(yīng)該在“數(shù)據(jù)易讀”上面做得更好。
當(dāng)然也有很多不是PDF格式的數(shù)據(jù),就比如我做的一個地圖,關(guān)于紐約最臟的30條水道。
聽起來雖然奇怪,但是我依據(jù)的是水中糞便大腸菌的含量。圖上圓圈越大,水質(zhì)越差,圈圈小的水比較干凈。這個數(shù)據(jù)來自過去五年里,對內(nèi)陸水道的水質(zhì)監(jiān)測數(shù)據(jù)。內(nèi)陸的水道的圓圈都比較大,普遍都比較臟。
從中,我們可以有所收獲的是:***,千萬不要在排入小溪或運河的水域游泳,第二,通過這個方法,我得知紐約最臟的下水道在哪里。因為五年來,94%的水質(zhì)樣本數(shù)據(jù)都顯示某地的下水道糞便大腸菌含量過高,觸犯了“讓人們無法游泳”的法律。
這些數(shù)據(jù)你可沒辦法在城市報告上看到,當(dāng)然也不會出現(xiàn)在城市官網(wǎng)的首頁上,盡管我們能達(dá)到這個原始數(shù)據(jù)就已經(jīng)值得高興了;由于這些數(shù)據(jù)還不是公布在開放數(shù)據(jù)門戶網(wǎng)站上,所以獲取這個原始數(shù)據(jù)也并不是那么簡單。
要是你去開放數(shù)據(jù)門戶上面逛一逛,你就會發(fā)現(xiàn),我們能看到的是一連串的年份和月份;剛才那些數(shù)據(jù)是來自環(huán)保部門的網(wǎng)站,每個鏈接打開都是一個Excel表格,每個Excel表格又是如此不同,連標(biāo)題都不同。你只能復(fù)制、粘貼、重新排版……
當(dāng)然,依據(jù)這些數(shù)據(jù)作出“水質(zhì)地圖”是挺不錯的。