計算機視覺的十年:深度學習帶來變革,經典元素仍主導特定挑戰
大數據文摘出品
編譯:文摘菌
近些年來,計算機視覺(CV)的發展勢如破竹,滲透到了我們生活的方方面面。對于大眾而言,這可能像是一項新鮮且令人興奮的科技創新,然而,實際上并非如此。
事實上,計算機視覺已經有幾十年的發展歷程,早在20 世紀 70 年代,已經為今日所使用的眾多算法打下了堅實基礎。然后,在大約十年前,一種當時還在理論發展階段的新技術浮現眼前:深度學習,一種利用神經網絡解決高度復雜問題的 AI 形式,只要你有足夠的數據和計算能力就能驅動它。
隨著深度學習的持續進步,我們開始認識到它在解決某些計算機視覺問題上的表現十分出色。對于目標檢測和分類等挑戰性問題,深度學習的應用效果特別理想。從這時開始,"經典"的計算機視覺與基于深度學習的計算機視覺開始出現明顯的區別。
什么鎖住了經典CV?
然而,深度學習的崛起并未將經典計算機視覺貶低為過時技術;兩者仍在并行發展,幫助我們明確哪些問題更適合借助大數據來解決,哪些問題應當繼續使用數學和幾何算法來處理。
盡管深度學習能夠革新計算機視覺,但這種神奇的改變只有在有適宜的訓練數據可供使用,或者在網絡能獨立地、在明確的邏輯或幾何約束下進行學習時才能顯現。
在過去,經典計算機視覺被用于物體檢測,識別特征(如邊緣、角點和紋理)甚至對每一個圖片像素進行標記(語義分割)。然而,這些過程都非常復雜且耗時。
要檢測物體,需要熟練掌握滑動窗口、模式匹配和窮舉搜索等技術。提取和分類特征則需要工程師開發定制的方法。在像素級別上區分不同類別的對象需要大量的工作來劃分不同的區域,即使是最有經驗的計算機視覺工程師也并不總能正確地區分圖像中的每個像素。
深度學習變革目標檢測
相較而言,深度學習,尤其是卷積神經網絡(CNN)和基于區域的卷積神經網絡(R-CNN),已經使得物體檢測變得相對簡單,特別是與Google 和 Amazon 等大公司出品的大·圖像數據庫結合使用時。只需通過訓練良好的網絡,無需明確的手動規則,算法就能在各種情況下檢測目標,且不會受到視角的限制。
在特征提取方面,深度學習只需要一個有效的算法和豐富多樣的訓練數據,既能防止模型過擬合,也能確保在投入生產后面對新數據時獲得高度的準確性評分。在這項任務上,CNN 表現得尤為出色。此外,當深度學習被應用于語義分割時,U-net 架構表現得非常好,消除了復雜的手動處理的需求。
回看“經典算法”
雖然深度學習無疑已經徹底改變了計算機視覺的領域,但在同時定位和映射(SLAM,Simultaneous Localization and Mapping )以及運動結構(SFM)等特定挑戰上,經典計算機視覺的解決方案仍然優于較新的方法。這些問題都涉及到使用圖像來理解和描繪物理空間的尺寸。
SLAM 主要針對構建和更新某個區域的地圖,同時跟蹤代理物體(通常是某種類型的機器人)在地圖中的位置。這種技術使得自動駕駛和機器人吸塵器等成為了可能。
SFM 也同樣依賴于先進的數學和幾何知識,但其目標是使用從無序圖像集中獲取的多個視角來創建物體的三維重建。它適用于不需要實時、即時響應的情況。
最初,人們認為正確執行 SLAM 需要大量的計算能力。然而,通過使用近似方法,計算機視覺的先驅者們能夠使計算需求更加易于管理。
相比之下,SFM 更為簡單:與通常涉及傳感器融合的 SLAM 不同,該方法只利用相機的固有屬性和圖像的特征。與許多由于范圍和分辨率限制而無法進行的激光掃描相比,這是一種經濟高效的方法。其結果是對物體的可靠且準確的表示。
前方的路
深度學習仍然無法像經典計算機視覺一樣解決某些問題。工程師們應繼續使用傳統技術來解決這些問題。當問題涉及復雜的數學和直接觀察,且難以獲取適當的訓練數據集時,深度學習的強大和笨重可能無法生成優雅的解決方案。可以用“瓷器店里的公牛”這個類比來形容這種情況:就像 ChatGPT 在基本算術方面肯定不是最高效(或最準確)的工具一樣,經典計算機視覺將繼續主導特定的挑戰。
經典計算機視覺向基于深度學習的計算機視覺的部分過渡給我們帶來了兩個主要的啟示。
首先,我們必須認識到,全面替換舊技術,盡管更簡單,但卻是錯誤的。當一個領域被新技術打破時,我們必須謹慎關注細節,并逐個案例確定哪些問題將從新技術中受益,哪些問題仍然更適合使用舊方法。
第二個啟示是,雖然過渡帶來了可擴展性,但它也帶來了一種苦樂參半的情感。傳統方法確實更多的是手動操作,但這也意味著它們既是藝術,又是科學的結合。從圖像中提取特征、物體、邊緣和關鍵元素所需的創造力和創新力,并不是來自深度學習,而是來自深思熟慮。
隨著我們逐漸遠離經典計算機視覺技術,而工程師有時候更像是計算機視覺工具的整合者。雖然這對行業來說是“好事”,但卻遺憾地放棄了那些更具藝術性和創造性的元素。未來的一個挑戰將是嘗試以其他方式將這種藝術性融入進來。
理解取代者
在未來的十年中,預測“理解”將最終取代“學習”,成為網絡開發的主要關注點。重點將不再是網絡能學到多少知識,而是它能深入理解信息的程度以及我們如何在不給予過多數據的情況下促進這種理解。我們的目標應該是讓網絡能在最少的干預下得出更深入的結論。
在計算機視覺領域,接下來的十年肯定會帶來一些驚喜。也許經典計算機視覺最終會變得過時。也許深度學習也會被一種尚未被我們聽說過的技術所取代。然而,至少目前來說,這些工具是處理特定任務的最佳選擇,構成了未來十年計算機視覺發展的基礎。無論如何,這都將是一段非常有意義的旅程。
參考來源: