AI 江湖風云變幻 計算機視覺路在何方
原創作者丨張潔
【51CTO.com原創稿件】計算機視覺 (Computer Vision, CV) 在人工智能領域里相當于人類的眼睛,致力于讓計算機能夠像人類一樣,識別、理解和處理圖像以及視頻中的信息。得益于深度學習的興起和發展,目前 CV 領域進展迅速,此項技術已經廣泛應用到安防、金融、自動駕駛、醫療等行業,也逐漸成為人工智能領域里應用最廣的技術之一。當越來越多的應用場景被挖掘出來時,也意味著計算機視覺的發展前景將無比廣闊。
前沿:進展與挑戰
2012 年之后,深度學習興起,顛覆了幾乎所有的計算機視覺任務。其特點是將傳統的特征工程和模型學習合為一體,即能夠在學習的過程中進行特征設計。在過去的 2021 年里,傳統科技巨頭公司表現依舊令人矚目,不少模型一經推出就獲得廣泛關注。
OpenAI 同時發布了兩個連接文本與圖像的神經網絡:CLIP 和 DALL·E 。基于這兩個模型,機器學習社區的開發者在文本與圖像的匹配方面嘗試了很多新的玩法。
谷歌大腦團隊公布了 Vision Transformer(ViT)進階版 ViT-G/14,參數高達 20 億的 CV 模型,經過 30 億張圖片的訓練,刷新了 ImageNet 上最高準確率記錄——90.45%。
……
此外,過去一年間 CV 領域的論文發布也堪稱百花齊放。據統計,今年的 CVPR(Computer Vision and Pattern Recognition,計算機視覺領域頂級峰會之一)舉辦的 12 次會議共發表了超過 1600 篇論文,其中一些新主題來到了聚光燈下。
其一,使用對抗樣本學習。通過對抗性學習,當加入不同級別的噪聲時,每個樣本的可靠性可以根據其預測標簽的穩定性來估計。這使模型能夠識別和關注對噪聲更具彈性的樣本,從而降低其對對抗性示例的敏感性。
其二,自監督和對比學習。自監督學習是創建數據高效人工智能系統的幾種計劃之一,主要是利用輔助任務(pretext)從大規模的無監督數據中挖掘自身的監督信息,通過這種構造的監督信息對網絡進行訓練,從而可以學習到對下游任務有價值的表征。
其三,視覺語言模型。VL 使用不同形式的數據,可以更好地進行特征映射和提取。此外,可以使用大量數據樣本來訓練這些系統。與自監督學習類似,學習到的特征是通用的,可用于多個下游任務。此外,VL 模型可用于學習更好的視覺特征和增強語言表示。
其四,有限數據學習。弱監督學習和遷移學習有助于減少訓練 CV 模型所需的標記數據量,從而增加這些模型在工業中的應用和采用。弱監督學習還可以幫助模型在存在噪聲標簽的情況下表現得更好。不過,弱監督學習和遷移學習都是相對較新的領域,要在工業中使用尚需時日。
商業:潛力無窮,暗流洶涌
自 2012 年計算機視覺領域出現神經網絡技術之后,算法進行多次穩步改進,在某些視覺任務上的性能已經可以與人類相媲美,甚至有所超越。隨著計算機視覺技術日趨成熟,其商業價值和發展潛力也得到了資本市場的普遍認同。
根據 Crunchbase 統計,過去 8 年里約 1800 家計算機視覺創始公司獲得風險投資超 150 億美元。僅就中國市場來說,計算機視覺行業市場規模發展也相當迅速,據前瞻產業研究院整理,2020 年我國計算機視覺產品的市場規模占整個人工智能行業的 57%。
就行業分布來說,熱門賽道集中于零售、安防、制造、醫療。
零售業可基于場景化營銷、商品識別分析、消費者行為分析、防盜損等應用,為改善用戶體驗、門店運營智能化改革提供了途徑;安防作為 CV 落地最早的場景之一,在視頻監控、智能交通、智慧園區等領域應用廣泛;制造業對 CV 技術的使用包括智慧現場安監、預測性維護、智能輔助運輸和工業視覺質檢等方向,場景豐富多樣;在醫療領域,CV 產品和解決方案作為提升現代醫療診斷和治療水平的重要工具, 使實施風險低、創傷性小的手術方案成為可能。
總體而言,計算機視覺和產業融合的加深,也加速了產業規模的增長。資料顯示,到 2025 年我國計算機視覺技術及視覺核心產品及帶動的相關產業規模將達到 6000 億。不過,這個賽道固然潛力無限,但對于身處這個賽道的玩家來說依舊暗流洶涌。
2021 年 12 月,在商湯科技上市的關鍵時刻,美國財政部將其列入“中國軍工復合體企業”清單,美國投資人被禁止投資商湯科技。而在此前被列入制裁名單的還有與商湯科技并稱“AI 四小龍”的另外 3 家企業(曠視科技、云從科技、依圖科技)。
當前,中美兩國在科技領域角力日趨激烈。在互聯網行業整體發展放緩的大背景下,美國對中國人工智能公司的打壓無疑是雪上加霜。截至 2021 年 12 月 31 日,同屬于計算機視覺領域的“AI 四小龍”均已啟動上市計劃,但僅有商湯科技幾經波折后在港股成功上市。
四小龍上市之路的曲折多舛,撇開外因作用,折射的更多是整個 AI 行業在商業化之路上的步履維艱。
AI 發展幾經起落,與其燒錢快、落地難的現實不無關系。以 AI 四小龍為例,他們同處計算機視覺領域,創業之初產品同質化程度較高,落地場景也較多地集中在安防和金融領域,要尋求發展,開發更多的產品解決方案和落地場景是剛需。但要在更為細分的賽道力求落地無疑是更大的挑戰,在持續的業務擴張、高昂的研發投入下,落地不及預期的陰影始終沒有散去,常年虧損的局面也未有扭轉。
計算機視覺技術的應用落地需要更深入業務、更深入行業,加強用戶洞察,滿足千人千面的需求,這要求企業未來在重視前沿算法研發的同時,進一步加強算法和商業應用的融合,在產業落地的深水區,尋求和其他行業、合作伙伴共建生態,實現價值閉環。
五大趨勢
縱觀 2021 年計算機視覺領域的整體發展,英特爾軟件創新者、谷歌開發者專家 Sayak Paul 提出了五大新趨勢。
趨勢一:資源更高效的模型(Resource-Efficient Models)
原因:
- 最先進的模型通常很難在輕量設備(比如手機、Raspberry Pis 和其他微處理器)上離線運行的。
- 較重的模型往往具有較明顯的延遲(這里表示單個模型運行前向計算的時間),并且會顯著影響基礎設施的搭建成本。
- 出于成本、網絡連接、隱私等問題考慮,如果基于云的模型托管不是一個可選項?
趨勢二:創造性應用的生成式模型
原因:
- 生成式模型已經取得了長足進步。
- 現在生成式對抗網絡 (GAN)幾乎可以創建任何以假亂真的圖片。示例請參考https://thisxdoesnotexist.com/
- 可以實現多種功能:圖像超分辨率(Image Super-Resolution)、域轉移( Domain Transfer)、圖像外擴(Extrapolation)、隱式神經表示和 CLIP(Implicit Neural Representations and CLIP)
趨勢三:自監督學習
原因:
自監督學習不使用任何 GT 標簽(Ground Truth Labeler ),而是使用前置任務(pretext tasks);然后使用大量未標注的數據集進行模型訓練。
與之相比,監督學習存在這樣一些挑戰:
- 需要大量標注數據來推動性能提升
- 標注數據的人工成本很高,且有可能存在偏差
- 大規模的數據標注與訓練需要占用較長時間
總體來說,未標注數據的準備成本非常低,而且在計算機視覺領域,SEER 等(一種自監督模型)模型在對象檢測和語義分割方面的表現要優于監督學習。
趨勢四:Transformers 與 Self-Attention 的使用
原因:
Transformers 是一種新的機器學習架構,采用的是 Self-Attention(自注意力)機制,其與傳統 Attention(注意力)機制有很大不同。這種方式能通過量化成對實體之間的關系(pairwise entity interactions),有效獲取源端或目標端自身詞與詞之間的依賴關系,有助于網絡學習對齊數據中的上下文信息。另外,當 self-attention 與 CNNs 相結合,會構建強大的 baselines(BoTNet)
與 CNN 相比,Transformer 的優勢:
- 較少的歸納與先驗,因此可以被認為是一種適用于不同學習任務的通用計算基礎
- 參數有效性和性能與 CNNs 相當
與 CNN 相比,Transformer 的劣勢:
預訓練時,對大數據機制的依賴性更強。因為 transformer 沒有和 CNNs 那樣的明確定義的先驗
趨勢五:魯棒視覺模型
視覺模型容易受到很多因素干擾,影響其性能。
目前主要面臨以下三個問題:
- 擾動。深度模型對輸入數據中難以察覺的變化不夠魯棒;
- 形變。深度模型會率先對高頻出現的區域做出反應,使得其容易受到常見的損壞(如模糊、對比度、縮放等)的影響
- 分布外數據。
可以提升魯棒性的嘗試:
- 對抗訓練(Adversarial training):類似于拜占庭容錯,其基本是讓模型能夠在面臨糟糕情況時做好自行處理的準備;
- 一致性正則話(Consistency regularization):期望模型能夠對有噪聲的輸入具有一致性;
- 立即檢測異常數據點。
結語
計算機視覺帶給機器的并不止于通過視覺理解世界的能力,更是與世界建立聯系,基于理解進行決策,最終實現交互的路徑。像其他技術一樣,CV 也經歷著缺口、泡沫、泡沫擠出、理性回歸、再度崛起的起起落落,商業化依舊任重而道遠。不過我們依然愿意相信,歷史的車輪永遠向前,距離計算機視覺普惠人類生活的那一天已經不會太遠。
附參考資料:
從 CVPR 2021 的論文看計算機視覺的現狀:
https://www.163.com/dy/article/GEUJ8CG50531D9VR.html#post_comment_area
IEEE Fellow 梅濤:視覺計算的前沿進展與挑戰:
https://www.yanxishe.com/blogDetail/28319
2021 年中國人工智能行業市場現狀與優勢賽道分析計算機視覺成為千億級大賽道:
https://baijiahao.baidu.com/s?id=1711947993304727146&wfr=spider&for=pc
Sayak Paul | Deep Learning, Computer Vision, etc.:
https://sayak.dev/
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】