人民中科入選國家自然科學獎:強化視頻理解優勢,降低AI應用門檻
近日中國互聯網絡信息中心(CNNIC)發布了第 48 次《中國互聯網絡發展狀況統計報告》,數字社會新形態持續升級,截至 2021 年 6 月我國網民規模達 10.11 億,網絡視頻(含短視頻)用戶規模 9.44 億。隨著互聯網內容的視頻化以及 VR、元宇宙等應用的興起,海量的非結構化內容正在高速增長,這些內容難以被機器快速識別、準確理解和方便檢索。
人民中科團隊在視頻理解方面積累了多年經驗,長期處于世界領先水平。在不久之前公布的 2020 年度國家科學技術獎中,人民中科核心團隊中的胡衛明、李兵以《視覺運動模式學習與理解的理論與方法》項目,獲得國家自然科學獎二等獎,也是唯一關于智能視頻的獲獎項目。
胡衛明、李兵
近日機器之心采訪了人民中科董事長李兵,了解了人民中科在視頻理解技術的最新進展。
一、“視頻理解是人工智能最需要攻克的高峰之一”
人類每天接觸到的信息里有 70% 是視覺信息;音視頻是人類最自然的交流和表達方式;隨著計算技術的發展,交互日趨自然化,音視頻正在改變互聯網的表達和交流方式。在 Twitter 上,平均每天有 80% 的消息包含圖像或視頻,或者僅僅是圖像或視頻。據貝爾實驗室研究報告,人和設備產生的數據中,音視頻占主導地位,并占據著新增數據流的五分之四。
亞馬遜首席技術官 Werner 在 Invent 全球大會提出,2021 年及以后,從社交平臺到業務運營的所有領域,音頻、視頻和圖像的使用將繼續取代文字;他認為,新興的用戶界面,讓人類可以用更自然的方式進行人與機器、人與人的交互。
企業要與客戶更好交流,也需要更敏銳地意識到這些變化??蛻舨辉僖揽挎I盤與企業的產品和服務進行互動,企業需要轉向更自然的用戶界面、更自然的交流方式。音視頻讓服務和信息的獲取更加公平,交流將不再受文字能力或行動缺陷的限制。
有觀點認為,視頻智能理解是人工智能的重要戰場,是體量最大的人工智能?!敢曨l理解是人工智能最需要攻克的高峰之一,而互聯網會是視頻理解的最重要應用場景,視頻理解具有廣泛的應用前景?!谷嗣裰锌贫麻L李兵表示。正是因為認識到視頻理解的重要性,人民中科團隊才多年堅持扎根于這個領域。
視頻除了空間特性外還具有時序特性,運動信息是其最重要的特征,是物體檢測、目標跟蹤、行為識別以及視頻事件分析和理解的核心能力及關鍵環節。有觀點認為,視頻智能理解將是人工智能的重要戰場,是體量最大的人工智能。據李兵介紹:「網絡視頻的標注、分類、風控,監控視頻的目標跟蹤、行為識別,工業視頻中的安全檢測等,都屬于視頻理解的應用場景」。
二、“做頂尖的科研,做有用的科研”
「運動模式的學習與理解」是理解視頻信息的重要技術,人民中科的團隊圍繞目標檢測跟蹤的魯棒性和行為模式的可學習性等關鍵科學問題,取得了一系列具有重要國際影響力的創新成果,實現了「運動模式的學習與理解」這一難題的部分解決。目前已有 90 余篇論文發表在 ACM Transactions、IJCV、TPAMI 等國際頂刊上;公司的胡衛明、李兵以《視覺運動模式學習與理解的理論與方法》項目獲得國家自然科學獎二等獎,是唯一關于智能視頻的獲獎項目,6 篇代表性論文的他引次數超過 7000 次。
「團隊做研究時的目標都很單純,就是做頂尖的科研,做有用的科研?!估畋f,以前搞科研,始終對團隊強調兩個方面:一是要高水平,從不要求論文數量,只強調質量、影響力;二是特別看重將科研成果能否真正用在國家重大項目需求和工程實踐,并通過實際應用檢驗和提升科研能力?!高@么多年來,我們團隊始終能在視頻運動分析、內容理解領域保持國際領先,一是堅持深耕一個方向,不為各種熱點所干擾;更重要就是堅持理論研究與實際工程的結合,真正把論文寫在祖國的大地上」?,F在創辦企業,團隊希望將人工智能前沿技術與市場需求融合,形成低成本、高效率、自主可控的產品體系,幫助國內中小型科技企業降低 AI 應用門檻。
目前,人民中科在視頻理解的多個方向都具有國際領先的技術成果和儲備:
在視頻跟蹤方向,團隊在 TPAMI 和 IJCV 等國際權威期刊和會議上發表過數十篇論文,獲得過多次世界比賽的冠軍,2020 年獲得中國模式識別與計算機視覺大會 PRCV 最佳論文獎,并獲得吳文俊人工智能科學技術獎一等獎。近期主要探索人腦的認知機理,研究模擬小腦空間定位和大腦高層認知的協作機制,利用相關濾波器在頻域上模擬小腦對底層視覺信號的細粒度編碼與空間精確定位能力,利用卷積反卷積神經網絡在時域上模擬大腦對視覺信號的編解碼及其高層認知能力,逐步實現相關濾波學習和深度特征學習相融合的實時在線自適應的目標跟蹤。
在行為識別和視頻內容描述方向,團隊在 TPAMI 和 IJCV 等頂級期刊和會議上發表論文 40 余篇,獲得 ICCV2019 VATEX 視頻描述中 / 英文雙賽道冠軍。正在模擬大腦的視覺注意力機制,并根據視覺系統中表觀神經通路和運動神經通路之間的注意力機制設計運動增強模塊,加強雙流卷積神經網絡兩路分支之間的交互和協同,構建有效的基于時空深度耦合的目標行為識別模型。在視頻內容描述方面,提出了新的教師推薦學習策略,通過知識蒸餾的方法,將外部語言模型的語言學知識傳遞給描述模型;在原有教師強迫學習的訓練過程的基礎上,配合在大型語料庫上預訓練的語言模型生成的軟目標進行推薦學習,在每一步的訓練中同時學到了數十倍的知識,很好地緩解了由于缺乏特殊視頻的訓練樣本所帶來的訓練不足問題。
在視頻內容安全方向,團隊擁有發明專利 40 余項,多項技術與產品廣泛地應用于各種實際應用系統,曾獲得北京市科學技術一等獎,中國通信學會科學技術一等獎,北京市發明專利獎一等獎等。正在重點研究并很快發布基于深度紋理網絡和空間身份約束的偽造人臉鑒別,引入更多的約束信息,設計了性能更優,泛化能力更強的假臉檢測算法,包括具備更高的準確率、對未知造假模型更好的泛化能力、對數據量更小的依賴性、對圖像劣化的魯棒性,以及具備一定的自我更新能力,解決交叉測試中不同類型的檢測算法在遇到未知造假模型時泛化性能急劇下降的問題。
「公司從成立之初,就一直堅持自主創新這個重要方向,已經推出的多款產品實際運行性能均超過了國外對標產品。」人民中科成立兩年多來,已在 CVPR、IEEE TIP、IEEE TCSVT 等頂會頂刊上發表多篇論文,并推出了從基礎模型、計算加速卡、計算服務器到 SaaS 的全系列國產化產品。談到作為一家初創公司,為什么會選擇這么一條成本和技術挑戰都非常高的路線。李兵認為,「在當前國際競爭的大環境下,人工智能是未來競爭最為激烈的科技領域之一;我國構建自主的技術體系是保證未來技術競爭力和系統安全性的必經之路,而且國內人工智能的相關芯片和硬件、計算技術、底層系統等已經有較好的產業基礎和應用生態?!?/p>
三、創建開放機制,聚集最優秀的年輕人才
人民中科是中科院自動化所與人民網強強聯合,共同發起成立的內容科技企業。公司依托中科院自動化所的模式識別國家重點實驗室、人民網的傳播內容認知國家重點實驗室、中國科學院人工智能創新研究院等重要科研平臺,有先天的技術先進性和行業敏感度優勢。但科技落地產業,只有技術優勢是遠遠不夠的,核心是要解決好機制、人才等商業底層基礎。
為了更好地打造經管、產品、工程等方面的體系化團隊,人民中科主動與社會多方合作,設計打造機制、用好機制,吸引中高級人才加入。公司借鑒世界優秀企業的經驗,搭建開放、高效的數字組織,以創造一個自由生長、高效協作的內部創業生態為目標,目前已吸引了一批國內外互聯網巨頭及科技獨角獸的中高層管理人員加盟。
李兵作為國家優青,也是所里年輕的研究員、博導,聊到從一個杰出科學家到普通創業者的歷程,李兵覺得自己還需要繼續調整。「以前做科研,是帶幾十個人做項目,現在則需要與幾百個人協同做企業;科研需要攻克頂峰、突破邊界,重視創新和原創,較少考慮落地的限制,而做企業首先要考慮實現目標任務所需的代價,需要以低成本和較少的約束條件做出讓用戶滿意、市場買單的實用產品;二者最大的相同之處是人才,都需要聚集最聰明的年輕人一起奮斗,都需要解決優秀人才愿意加入、有所成長、愿意奮斗等問題」。
四、做普惠高效的算法,降低 AI 技術的應用門檻
人民中科圍繞 “視頻大腦” 建立以視頻內容為對象的數據處理、智能識別和理解、高通量計算等能力,均達國際領先水平,提供的產品或服務成功解決了用戶在內容安全、智能運維、視頻檢索等方面的需求。
「用戶并不是很在意你技術如何厲害,他們只會為能夠感知到的效果和價值買單,還希望盡可能的便宜?!挂虼嗽趯嶋H應用中,就要求公司提供的算法和技術不僅效果好、精度高,更需要有高效能、低成本、低場景限制。比如,視頻理解的算法會涉及驚人的計算量,對算力有較高要求。我們經常發現,在測試或封閉環境下,有些企業實現的效果或許不錯,但用戶往往沒有足夠的能力提供或承受所需的算力成本,或者由于場景限制導致可用的計算平臺性能很低,出現了所謂「技術落地難」的問題。目前人民中科在這個方向做了非常深入的探索,積累了深厚的技術儲備和應用經驗。并且視頻理解的算法會涉及驚人的計算量,對算力有較高要求。人民中科提出動態和漸進式的分解與裁剪一體化的模型壓縮方法,以及基于圖結構的蒸餾學習方法等一整套深度模型壓縮與加速方案,向客戶提供的算法與算力深度優化方案,計算速度是業內平均水平的四倍以上,能降低 70% 左右的計算成本;提供的算法和產品可以在弱標注、少訓練以及復雜場景下完成多模態數據的智能處理。
成立兩年多的時間內已基本完成了研發、技術、工程、管理等體系的建設;對外暫以輸出技術能力的形式進行合作,目前已簽約的合作對象多是互聯網大廠、政府、高校、運營商、上市公司,公司能力已得到市場初步認可。對公司的規劃,據李兵介紹,第一階段主要是盡快完成技術的工程化、產品的國產化。下一階段將結合應用場景,逐步推出專用計算設備和服務,在更廣泛、更復雜的應用中不斷提升公司的核心能力;工作重點仍是團隊建設,聚集最優秀的人才,建設內容理解的核心能力,為社會治理、商業營銷、消費娛樂等提供基礎技術,提升數字世界的認知能力。