螞蟻金服張潔:基于深度學習的支付寶人臉識別技術解秘
原創注:原文發布于2015年8月13日
移動互聯網技術的發展,給眾多傳統行業帶來創新的機會,同樣為金融市場變革創造難得的機遇。
用戶身份認證是互聯網金融發展的基石。今年三月,在德國漢諾威舉辦的IT展覽會上,馬云向德國總理默克爾和中國副總理馬凱展示支付寶的“刷臉”支付,引起了人們對人臉識別技術的熱議。在WOT2015 移動互聯網開發者大會上,51CTO記者對螞蟻金服高級技術專家張潔進行了專訪,獨家解秘褪去層層面紗之后的人臉識別技術實現的的原理、框架和工程實踐。
張潔,螞蟻金服高級專家,曾獲中國國家科技進步三等獎。《Linux就是這個范兒》一書作者。帶領螞蟻金服生物識別技術團隊“柒車間”參與支持寶人臉識別實名認證等項目。曾在美國、日本、加拿大和中國的多家高科技企業擔任過技術總監等職,參與研發的Jack of Spades Combo卡于1999年3月獲得北美權威的PC Magazine雜志的Editors' Choice獎、PC Computing MVP Finalist Award大獎。
生物識別于移動支付場景下加速普及
傳統的賬號+密碼+短信驗證碼的身份驗證方式已無法滿足移動互聯網金融下的安全需求,也不能使用戶獲得更好的體驗。
隨著深度學習、神經網絡和人工智能等技術的發展,生物識別技術逐漸成熟。所謂生物識別技術就是利用人體固有的、具有唯一性的先天生物生理特征,像人臉、指紋、掌紋等,和后天形成的行為習慣,如筆跡、鍵盤行為,手機操作的觸屏行為,甚至握手機的姿勢等。來進行身份鑒定。
從應用的角度來講,生物識別技術可以解決兩類問題,身份驗證和身份識別。
- 身份驗證是判斷待識別用戶是否是他所聲明的身份,只需要將輸入的用戶特征與數據庫中所存儲的該身份的模板特征相比對,是一對一的比較;
- 身份識別是利用注冊用戶數據庫來確定待識別用戶的身份,需要將輸入的用戶特征與庫中所有的身份模板特征進行比對并給出相似度,來判別待識別用戶與庫中哪個身份相似度最高,是一對多的比較。
生物特征因其固有的屬性不容易被仿制、盜用,使其安全性大大提高;而且生物識別的認證過程更加方便,它不需要用戶再費盡心思記憶一長串密碼。由此可見,生物識別技術將在移動金融領域具有更加廣泛的應用場景。
人臉識別成新寵 “刷臉”真的靠譜嗎?
早在十多年前,一些商業性的人臉識別系統就逐漸進入市場,但卻一直處于摸索階段,人們對其性能和準確率一直持懷疑態度。那么在眾多生物識別技術中,“柒車間”為何專注于對“刷臉”的技術研究?他們如何應對“整容了怎么辦雙胞胎怎么辦、卸妝了怎么辦”等技術挑戰的呢?
人臉識別技術
生物識別技術的關鍵是將生物特征數字化。張潔坦言,人臉識別技術采集成本較低,便利性較高,所以發展得比較迅速,但信息的穩定性和可靠性相對較弱。在移動金融領域,人臉識別技術本身的精密性和背后安全性要求,遠比其他領域高得多,使之確實存在許多技術難點。
支付寶人臉識別深度學習采用的是x60人臉區域(patch)的多層卷積神經網絡(CNN)。CNN有三個核心,局部感知 、全值共享、時間或空間亞采樣,這三種思想的結合保證了在一定程度上獲得位移、尺度和形變不變性,用這種方法學習出來的特征對提高識別率有很大好處。
多CNN結構
預處理——在人臉識別預處理的時候,首先對關鍵特征點檢測、旋轉、兩眼距離的歸一以及圖像切割等方法進行人臉對齊;然后使用不同尺度進行多通道的歸一。
信息學習——在特征關鍵點截取出多個人臉信息進行學習,在每個人臉區域上學習一個CNN用于提取該區域的特征。由于截取了多個人臉區域,所以對人臉對齊要求不是很高。識別特征提取后用 Joint Bayesian 分類器來判定是否來自同一個人。在訓練過程中,使用Dropout 對于使用梯度法來訓練網絡是有必要的,如果不用Dropout 的話,學習高維度特征會帶來梯度擴散,也就是過擬合問題。
訓練和預測——好的算法結構建立起來后,需要有好的訓練和預測的平臺來駕馭它。張潔的建議是訓練時適合采用GPU,而預測的時候適合采用CPU。因為訓練是離線的,對穩定性和安全性要求不高,但數據量非常大,而GPU在批量運算的速度方面有很大優勢。另一方面,預測是在線的,CPU方案比較成熟,可以降低運維成本,而且易于擴展。
通過數十億張人臉圖像數據的訓練后,目前螞蟻金服人臉識別系統的準確率已經居于國內外領先水平,某種程度上說,機器對人臉的識別已經超過肉眼。
#p#
人臉識別應用于移動金融領域的風險控制
人臉識別已經越來越多地被引入到金融領域,尤其是新型的移動支付業務中。雖然生物識別具有很多的安全性,但一旦出現被盜用等問題,后果很難挽回。張潔建議在應用到支付領域時,人臉識別技術主要是解決身份認證問題,要在保證安全的基礎上進一步提升用戶的使用體驗,并分享了螞蟻金服的實踐經驗。
多層次閉環安全技術體系
人臉識別技術是建立在螞蟻金服多層次、閉環的安全技術體系之上的,具體包括終端與系統攻防保護、身份認證、風險識別與評估、風險決策與管控、核查與深度分析五個環節。這幾個步驟完成之后,最終的結果會實時的反饋到技術防控環節中,不斷增強這個循環的效果。
利用大數據識別可疑交易
除了通過生物特征和生物行為外,支付寶還結合用戶的行為軌跡和社會關系等多維度的數據全面刻畫和分析用戶,有效地進行用戶識別和管理。在用戶利用鍵盤輸入卡號或密碼時,無痛地采集用戶在各個鍵上的按下和抬起的時間間隔,形成了用戶自己特有的一串安全秘鑰。用戶在沒有被打擾的情況下,已經優雅地為其建立了機器學習模型,這個模型與螞蟻金服的其他數據模型一起工作,提高了用戶可信行為分析的準確性。
活體檢測
活體檢測是互聯網人臉識別產品應用的第一道防線。用戶根據系統指令交互式配合做出所要求的姿態、動作或表情,比如眨眼、左右搖頭、張嘴閉嘴等來判斷用戶是否是活體用戶,另外進一步利用三維建模技術加強防偽攻擊的能力。
驗證方案
在風險控制為前提下,利用“遠程人臉識別+身份證件核實”方式可以實現對用戶的強身份驗證。用戶通過網絡銀行提供的移動應用程序在可信環境中運行采集用戶的人臉特征,利用公私鑰加密和簽名策略,把人臉信息/特征上傳到人臉識別服務器進行比對,然后返回比對結果給移動客戶端。人臉識別確保是移動設備機主本人在進行操作,并且保障強認證過程的確為用戶本人辦理,再通過對身份證的校驗保障用戶身份信息的真實有效。
生物識別未來應用場景廣闊
在采訪最后,張潔老師為我們展望了生物識別技術廣闊的應用場景,如通過“刷臉”、掌紋認證進行人員的管理和智能監控,利用掌紋進行汽車開鎖,通過臉形搭配服裝,通過膚質推薦化妝品,包括類似目前非常熱的“猜年齡”這樣娛樂性的應用等等。
生物識別技術的發展一定會帶給我們更加安全、便捷、豐富多彩的生活。雖然生物識別技術現階段還存在諸多不足,但對未來人臉識別技術的發展空間,我們還是應該持有樂觀的態度。