走出“題海戰術”,讓模型學會像人一樣思考
近日,螞蟻安全天筭實驗室安全專家蕉雪與復旦大學自然語言處理團隊(Fudan NLP)魏忠鈺教授合作的學術論文《基于小樣本學習的個性化Hashtag推薦》被中國計算機學會推薦B類期刊《中文信息學報》錄取。
《中文信息學報》創刊于1986年,作為國內計算機、計算技術類83種中文期刊評出的十五種核心期刊之一,及時反映著我國中文信息處理的先進水平 。數據顯示,《中文信息學報》每年在各個相關子方向錄取文章平均為10篇左右, 代表了我國最新的中文信息處理進展和學術動向。
一、快速學習:從“題海戰術”到“觸類旁通”
當你在社交媒體上發表內容時,在打出#時,社交媒體會推薦給你一個合適的Hashtag (話題詞) ,把內容劃分到相應的話題下面去,方便對社交媒體的內容進行分類管理。
為什么要在Hashtag推薦算法里引入小樣本學習算法?復旦大學自然語言處理團隊的曾蘭君同學向我們介紹:舉個例子,現有的Hashtag推薦算法,一般是使用分類框架來做的, 當你 使用屬于100個類別的社交媒體文本來對模型進行訓練,后面在做推薦時,模型也只能將待 推薦的文本分到這100個類別中來。 沒有進行重新訓練的情況下,模型不能處理訓練不可見的Hashtag。
然而,Hashtag會隨著時事熱點不斷快速更新。課題組 希 望社交媒體在你寫下#時,就會根據你社交媒體文本的歷史特征和當前輸入的文本內容,猜到你可能需要的Hashtag,并將合適的Hashtag推薦給你。
為了解決這一問題,論文提出將Hashtag推薦任務建模成小樣本學習任務。 同時,結合用戶使用Hashtag的 偏好降低推薦的復雜度。 通過互聯網公開授權的API獲取的數據集上的 實驗表明, 與目前最優方法相比,該模型不僅可以取得更好的推薦結果,而且表現更為魯棒 (即穩定性更強) 。
一般模型在認識一個類別的時候,需要非常多的數據才能夠正確地識別一個類別,這種依賴于數據學習的識別,就像一個高考機器,通過題海戰術來提高做題效率,卻缺乏有效的推理邏輯。而對于人類來說,即便是兒童,當你告訴他看到的一張圖片是什么的話,他就能很快地認識這個類別。
小樣本學習就是希望機器能夠擁有這樣一個能力,在見到一個只有少量樣本的類別之后,通過數據學習舉一反三,就擁有對這個類別的識別能力。它可以根據用戶的歷史特征,之前學到的經驗和當前的少量樣本,能夠快速的認識這個新類別,從而使識別的效率得到提升。
在未來,小樣本學習可以運用到更多的領域當中。在欺詐風險防控中,欺詐手法識別對于欺詐風險形勢感知以及欺詐管控至關重要。而新欺詐手法會不斷出現,對于新手法的樣本積累往往不足以訓練好的識別模型,如何在少數樣本積累的情況下對新手法進行準確識別也是一個問題。這篇對于小樣本學習進行研究的工作后續計劃遷移到欺詐手法識別的場景中。
二、知識驅動:從“填鴨式接受”到“主動推理”
在小樣本學習領域以外,魏忠鈺教授和螞蟻天筭安全實驗室還在欺詐要素識別的領域進行了合作。魏忠鈺教授表示,此項目是希望模型在面對大量用戶的欺詐投訴文本時,能夠通過舉報文本來判定欺詐要素是否滿足進而判定欺詐事實是否成立。
項目的創新之處在于:之前的模型識別是數據來驅動;現在模型能在模型識別文本要素后主動推理,通過數據學習和知識推理的雙驅動,更有效地將風險防范于未然。
因為該項目跟業務場景有很高的關聯度,但團隊沒有法律方面的專家,在前期對欺詐文本的標注及識別上遇到困難,只能通過對信息檢索系統和相關文獻的調研,來設計初步的文本標注的框架。
而螞蟻在合作中引入了司法團隊,提供了相對專業的關于欺詐識別的框架設計,使標簽體系的建立更符合業務場景,在此框架上,校方團隊再進行數據的標注、模型自動化識別等算法的設計來完成模型。螞蟻前期提供的框架基礎,相當于在業務上對研究團隊有了一次很實際的指導,最后呈現出來的效果甚至超出雙方的預期。
目前團隊對于欺詐要素的識別準確率已超過85%,主要識別舉報者是否被誘騙轉賬、收款方是否有非法占有目的等欺詐司法審理的關鍵證據。研究團隊目前完成欺詐投訴樣本的要素標注達到4萬條,通過欺詐要素識別模型判斷引導用戶主動去補充遺漏點,加強用戶在舉報流程中的體驗感和主觀能動性。在這過程中用戶完成舉報率相對提高了10%,舉報的信息質量提升了8%。確保了欺詐定性的準確率穩定增長,對于欺詐的防控效率也得到提升。
據課題組的研究成果顯示,在對用戶舉證文本的欺詐證據要素的識別基礎上,進一步通過數據+知識推理實現智能抗辯審理,模型根據用戶舉證與大數據信息為用戶輸出可解釋性更強的審理邏輯鏈條和結果 (即模型不僅能給出結論,還能告訴你它的分析思路,提供有說服力的理由) 。
相較于傳統的依賴數據學習的欺詐識別算法,本次與螞蟻的聯合創新性地提出了將人的知識、經驗、規則都輸入到欺詐識別算法體系中,模型將實現基于推理的智能判斷。相信課題組在這一技術上的創新將更好地保障用戶的資金安全,也對提升行業整體的風控水平起到重要作用。
魏忠鈺教授表示: 這樣全新的校企合作模式,不僅帶來了團隊研究一直所需的應用落地場景,還將螞蟻的實際業務經驗與團隊在算法上的創新互相補益,成為往后科研項目運營的一次很好的示范。 期待與螞蟻日后能夠有更進一步的長期合作,同時也期待這項研究在多個場景中得到應用,為用戶推薦更為精準的信息內容。