AI數(shù)據(jù)挖掘“世界杯”KDD CUP 2022落幕,螞蟻安全實驗室摘兩冠一季
近日,有AI數(shù)據(jù)挖掘“世界杯”之稱的KDD CUP 2022落下帷幕,螞蟻安全實驗室算法工程師林金鎮(zhèn)以單人成團(tuán)形式在此頂級國際賽事中取得“兩冠一季”的佳績,總成績名列全球第一。
KDD CUP(國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽)是由美國計算機(jī)協(xié)會知識發(fā)現(xiàn)與數(shù)據(jù)挖掘?qū)N瘯ˋCM SIGKDD)發(fā)起的國際數(shù)據(jù)挖掘領(lǐng)域最高水平競賽,每年吸引著眾多世界頂級企業(yè)、高校與研究機(jī)構(gòu)參與,在賽題上多年來保持著對解決實際問題的高敏感度。
此次螞蟻安全實驗室參與的“商品搜索”賽道,是一個機(jī)器學(xué)習(xí)“深水區(qū)”應(yīng)用場景。據(jù)賽題發(fā)起方亞馬遜介紹,選手要挑戰(zhàn)的是電商中的核心技術(shù)之一,“從非常有難度的搜索查詢數(shù)據(jù)里匹配相關(guān)商品”。眾所周知,提高搜索結(jié)果的相關(guān)性可以顯著改善客戶體驗及其對搜索的參與度,重要性不言而喻;但因商品量級巨大且多樣、商品信息缺失、搜索輸入噪聲大等疑難雜癥,使得正確分類特定搜索查詢商品在當(dāng)下仍具有極大技術(shù)挑戰(zhàn)性。
換句話說,這一賽道的要求是需要AI能夠不斷排除干擾,理解用戶可能拼錯的搜索詞背后的真實需求,給出帶來更優(yōu)體驗的結(jié)果。
此賽道分為三個賽題:指定搜索查詢下的商品排序、查詢與商品相關(guān)性分類、商品替代品識別。螞蟻安全實驗室憑借多年來在圖像識別和自然語言處理領(lǐng)域的積累,對參賽模型的“搜索查詢理解增強(qiáng)能力”做了重點升級,在查詢準(zhǔn)確率上表現(xiàn)優(yōu)異,從全球1699名選手中成功突圍,攬下雙賽題冠軍。
針對搜索內(nèi)容文本過于簡短、包含信息較少的普遍痛點,螞蟻安全實驗室提出從關(guān)聯(lián)商品描述中提取關(guān)鍵詞作為搜索文本特征,同時通過算法大幅擴(kuò)充搜索文本信息量的方案,實現(xiàn)模型效果的顯著提升;面對噪音干擾,則采用自蒸餾手段有效降低噪音影響,從而提升了模型的魯棒性。
據(jù)介紹,本次大賽中螞蟻安全實驗室所使用的關(guān)鍵詞挖掘及自蒸餾技術(shù),已大規(guī)模應(yīng)用于交互式風(fēng)控模型,對支付寶萬億規(guī)模交易中的欺詐、賭博風(fēng)險關(guān)鍵詞挖掘發(fā)揮了重要作用。技術(shù)上來看,交互式風(fēng)控場景是一個類“商品搜索”問題:AI需要與潛在被騙用戶進(jìn)行對話,在用戶模糊且充滿噪音的語義表達(dá)中敏銳捕捉關(guān)鍵詞,判斷其真實情況和所處欺詐類型,進(jìn)而從語料庫中自動實時匹配并輸出更精準(zhǔn)的勸阻話術(shù),以達(dá)到用戶愿意對話且聽從勸阻的目的。當(dāng)前,螞蟻交互式風(fēng)控產(chǎn)品每天與7.1萬用戶進(jìn)行深度交流,用戶交流意愿平均時長超過90s,涉詐交易用戶勸阻止付率提高了80%。
根據(jù)公開信息顯示,今年5月,國際電信聯(lián)盟通信標(biāo)準(zhǔn)化組織(ITU)已正式立項由螞蟻集團(tuán)牽頭的交互式智能風(fēng)控技術(shù)國際標(biāo)準(zhǔn)。這是全球首個交互式風(fēng)控國際標(biāo)準(zhǔn)。