揭秘格靈深瞳:計算機如何看懂我們的世界?
發現雪白桌面上一張同樣雪白的 A4 紙?提前一秒預知你的動作是否存在威脅?出現危險情況時,對著鏡頭做「SOS」的手勢警察就會來幫助你?
這些太像科幻片?格靈深瞳都做得到。
比爾蓋茨聽罷產品介紹直呼「This is very cool」,紐約警察局(NYPD)前來尋找解決方案,英偉達將其列為與小米同等重要的客戶……
一家 2013 年創立的國內公司,憑什么如此「高調」?
格靈深瞳正在制造能看懂現實的計算機之眼,邁出的***步是保護我們的安全。
從安防監控開始
2012 年夏天的圖書館,我將書包存于寄包柜,借書完畢發現錢包不翼而飛。報警、調監控錄像、確認有人從柜子中拿走我的書包取出錢包又大搖大擺的放回,可直到畢業錢包依舊杳無音信。
聽說這是個慣犯,校方多次查找都沒能捉到。如果攝像頭能夠識別這個人、識別、自動報警,也許一切就會不一樣。
安防監控一直被認為替代了大量人工,延長人眼觀察距離,又能在惡劣環境下工作。但實際上它們還只是用光纖、同軸電纜或微波在閉合環路內傳輸視頻信號的系統,雖能實時播放記錄圖像,但面對威脅時仍需要觸發現場的報警系統才能引起警覺。
如果沒有人觀看,這些實時傳輸的圖像就毫無意義。即便是為了尋找證據,事后查找也需要回溯錄像,在模糊的視頻中尋找線索,是一項極其繁重的工作。
能不能讓這些攝像頭就像我們的眼睛一樣看懂這個世界,自己發現危險和異常?
人們用兩只眼睛獲得原始的三維數據,再由大腦處理信息做出適當的反應。而在過去的十幾年中研究者們一直相信光學鏡頭+計算機算法就能看懂我們的世界,但光學鏡頭丟失了三維世界的重要信息——深度。
格靈深瞳使用的設備
格靈深瞳的設備看上去和普通的安防監控設備不太一樣。與一般球狀單攝像頭相比并列采用了三枚攝像頭:左側是與普通安防攝像頭一樣的 RGB 攝像頭,另兩個是激光發射器和接收器,外形與微軟 Kinect 非常相似。
通過它真的能看懂我們的世界么?
格靈深瞳CTO趙勇還在谷歌時就相信想要讓計算機要看懂圖像,必須通過三維這條路。通過激光發射器的發射與接收,以結構光源實現深度的方式讓攝像頭對三維的空間變化有了感知能力。但這只是***步,通過人眼接收光線僅僅是提供了信息。真正要「看懂」圖像,還需要大腦將光信號轉換成神經信號。
一整套將三維世界原始數據轉換為最原始、電腦能看懂的數據的系統,才是格靈深瞳的核心所在。
讓機器看懂世界
「格靈深瞳可以做到兩件事:***個是以人為單位,十幾、二十幾個人在屋子里互相交錯,比如地鐵,我們會對行人的軌跡和速度進行非常精確的跟蹤。另一個是在中遠距離對人的肢體行為,近距離對人手的行為都可以識別。」格靈深瞳 CEO 何搏飛告訴極客公園。
格靈深瞳 CEO 何搏飛為極客公園解釋設備原理
明明光沿直線傳播,格靈深瞳的設備如何做到人與人之間的遮蔽不會影響系統判斷?因為人是連續的——既不可能憑空出現,也不可能憑空消失,這也是格靈深瞳算法的前提。遮蔽情況出現時,系統會一直跟蹤到「失蹤」的人再次出現。
那么格靈深瞳如何提前預知犯罪?將所有的不正常(推搡、撞擊)行為都模型化后再匹配?不用這么復雜。以暴力行為為例,空間中的人動作的速度、幅度以及強度經過衡量,暴力動作與正常的動作相比強度非常不同。通過肢體的動作幅度對異常舉動進行分析和判斷,這個人的動作幅度超出安全值,格靈深瞳可以實現再行為發生前 0.5 秒或 1 秒報警。
目前銀行、特別是 ATM 自助銀行是格靈深瞳最主要的應用場景。具有學習能力的系統放在 ATM 機環境下,在一個月時間左右系統可以學習到大部分人都是一樣的進門、排隊、走到機器面前、插卡、按鍵盤、等一會兒取錢離開,并認為這樣的流程是正常行為。如果晚上 10 點有人進入一個北京城鄉結合部的營業廳,沒有取錢而是蹲在墻角,系統就會認為這是異常情況進行上報。或者有人在插卡口處做出大量動作,可能在安裝讀卡器、或者薄膜鍵盤,這時系統也會提示異常。
雖然產品叫做無人安防監控系統,格靈深瞳無意以此代替所有的監控人力。人類的世界太復雜,機器會幫助人類從重復性的工作中解放出來,但***的決定還是需要人來做出。格靈深瞳系統的存在是為安保人員提供極大的效率的提升,告訴他們「嘿,這里有點不太對勁,看看是不是有什么問題?」而不是取代他們。
三維的數據會不會大很多?傳統計算機真的能處理這些數據嗎?
沒錯三維的數據總量要比二維數據大得多,因此格靈深瞳選擇全部數據在本地進行結構化處理,再上傳云端。對帶寬的占用和現階段二維的安防監控沒有質的區別,至于現有計算機能不能處理,那就要看 GPU 了——這也是英偉達看重格靈深瞳的原因。
一家計算機視覺+人工智能公司
2013 年 4 月,格靈深瞳成立三個月就拿到真格基金和聯創策源的聯合天使投資,今年 6 月,格靈深瞳又拿到紅杉資本 A 輪高達數千萬美元的投資。
乘上樓電梯、ATM 機取現、超市購物,監控我們攝像頭無所不在。你猜北京 T3 航站樓正在盯著我們的「眼睛」有沒有一萬個?答案是五倍——五萬個。
在 CEO 何搏飛看來,安防監控擁有比智能手機更龐大的市場,銀行僅僅是其中的一部分。通過這些項目梳理全流程的格靈深瞳,平行進入其他行業也是順其自然的事。
但讓一個團隊、一家公司改變全行業是不可能的事,格靈深瞳常說自己是一家「一家計算機視覺+人工智能公司」。他們更希望在安防監控這個「驗證點」成功之后,能以計算機視覺為基礎提供一個平臺,讓更多行業的人接入其中,體驗到這項技術所能帶來的、***的力量。
比如運用到醫療領域,現階段心臟手術需要人為讓心臟暫停跳動轉向體外循環,計算機視覺則可以讓手術刀與心臟跳動同步運動,實現相對靜止的心臟手術。這種應用正處在試驗階段,也許不遠的將來每個人都可以從中獲益。
或者在空巢老人家中感知老人的意外情況及時提醒家人、課堂上通過學生的表情感知學習效果改善教學計劃……擁有感知能力的計算機視覺在這個世界里,可以有更多想像。
在格靈深瞳會議室天花板上有一個大大的X,代表著未知
格靈深瞳希望自己的未來是個人工智能公司,「在那個階段我希望能把計算機的認知能力,感知能力結合起來,去做一些非常有意思的事情」。
如果你覺得格靈深瞳被「神化」,那說明 CV 領域需要更多關注、更多參與。與短平快的 to C 項目相比,人工智能領域充滿太多變數,因此注定更加荊棘密布也孕育著更多可能。
極客是意識到趨勢,然后埋頭去做的人——何搏飛如是解讀「極客」精神。格靈深瞳也在根據現實不斷調整自己的步伐和方向,每一次的拜訪,都有新變化。
當互聯網和云成為基礎,機器學習、大數據成為常態,你猜下一個風口,是不是人工智能?