夯實AI基礎,聚焦行業實踐---記WOT全球人工智能技術峰會機器學習實踐分論壇
原創【51CTO.com原創稿件】6月21日,由51CTO主辦的WOT2019全球人工智能技術峰會在北京粵財JW萬豪酒店準時拉開序幕。作為2019年度全球技術人員線下交流的知名峰會,本次大會緊緊圍繞著通用技術、應用領域、企業賦能三大核心章節展開。來自全球的60余位一線AI大咖們齊聚一堂,與千余名參會群眾共同分享了深度學習、神經網絡、視覺技術、無人駕駛、機器學習、算法模型、知識圖譜等主題技術內容。
6月21日下午,在通用技術章節中A會場機器學習實踐分論壇,網易云音樂音樂推薦負責人肖強、VIPKID供需優化技術負責人沈亮、美團大眾點評高級技術專家王永康三位機器學習方面的專家受邀出席并發表了精彩演講。會后51CTO將專家發言整理成文,希望他們的演講內容精華對大家有所幫助。
網易云音樂音樂推薦負責人肖強:AI算法在音樂推薦中的實踐
網易云音樂音樂推薦負責人肖強的演講共分三個部分:一是網易云音樂的介紹,二是AI算法在音樂推薦中的實踐,三是音樂場景下的AI思考。
自2013年4月正式上線以來,網易云音樂憑借UGC社區、UGC歌單、精準推薦三大特色產品,成為了音樂愛好者的集聚地。
網易云音樂推薦系統致力于通過AI算法,實現用戶千人千面的個性化推薦,為用戶帶來不一樣的聽歌體驗。雖然與其他推薦一樣,都是以用戶體驗為導向,幫助用戶更快捷的獲取資源,但是,音樂推薦有著不同的特點和難點。
首先,由于音樂本身的復雜性,要求系統要更好地理解音樂。網易云音樂的做法是利用NLP系統,通過用戶在社區自發產生的內容去描述音樂,這樣不用聽就可以得到這個音樂的大概畫像。新的音樂則利用視頻、圖像技術,實現音樂之間相關的研究工作。
第二,利用可重復消費來計算CF相似度。也就是說基于用戶的可重復消費(一首歌聽了很多次),來表達用戶喜好,及歌曲間的關聯度,包括空間位置差異性和空間方向差異性。
第三,音樂推薦的消費成本高,強調關聯性也很強,更加要求有合適的模型去表達用戶的需求。LR模型的可解釋性強,但是表達能力有限。樹模型,以及LR和樹模型的結合,優點是可以解決部分非線性問題。大規模FTRL的優點是可以獲取記憶類特征,刻畫能力強。缺點是特征維度大、需要的樣本量多、計算復雜。此外,還有表達能力強的深度神經網絡,能學習到時序特征,刻畫能力+泛化能力強的深度時序網絡。 從線性模型、樹模型,到大規模FTRL、深度神經網絡,再到深度時序網絡,網易云音樂通過模型迭代實現更精準的表達用戶需求。
肖強指出,音樂消費中,因為用戶需求的復雜性,很難用單一目標去衡量音樂推薦系統,往往遇到CTR & 消費時長,不是同步提升,甚至此消彼長,以及多目標問題。網易云音樂用聯合訓練來解決多目標問題。聯合訓練的優勢主要有四點:一是多個目標任務在淺層共享表示,任務之間加入噪音數據,降低網絡過擬合,提升了泛化效果。二是多目標任務學習中不同任務的局部極小值處于不同的位置,通過相互作用,可以幫助逃離局部極小值。三是多目標任務聯合訓練,模型盡可能求解多任務的共同的解決方法。四是竊聽。通過聯合訓練,音樂的收藏率和消費時長都明顯提升。
在音樂場景下的AI思考部分,肖強表示,音樂推薦要解決的是在億萬用戶 * 千萬歌曲 * 十萬音樂人 * n種情景的四維空間的匹配問題。推薦系統的核心目標是利用人工智能提升用戶體驗。包括用戶愿意分享音樂、愿意長時間聽音樂、愿意收藏及反復聽收藏的音樂、用戶聽過的歌曲越來越多。網易云音樂的AI推薦體系是知識圖譜和統計學習、強化學習的結合,用強大的長尾發掘能力和精準的匹配能力,讓用戶更好的發現音樂。
VIPKID供需優化技術負責人沈亮:在線教育行業中視頻理解的應用
VIPKID供需優化技術負責人沈亮開場指出,在線教育領域中,1V1直播視頻內容是非常核心的數據之一。所以,特定領域和場景下的視頻內容理解技術顯得尤為重要,它能夠提升在線教育企業的核心競爭力。VIPKID不僅僅是一家在線教育類公司,同時也是一家視頻內容公司。每天在VIPKID平臺上,產生超過400W分鐘,30T的視頻數據,累計高達7PB的視頻內容。數據即價值,沈亮接下來的演講主要圍繞VIPKID對數據價值進行挖掘的方法,以及圍繞這些數據產品化所做的嘗試等內容展開。
視頻內容理解的技術近幾年非常火爆,原因有以下幾個方面。首先,視頻內容理解的大趨勢是從人工到機器。2015年,直播開始火爆,到2017、2018年短視頻的崛起,產生的數據是呈指數級增長的。直播,可以理解為PGC(專業生產內容),短視頻則是UGC(用戶生產內容)。UGC的內容輸出量遠大于PGC。對視頻內容理解的技術訴求也從審核、編輯逐漸滲透到圍繞內容理解的推薦產品,視頻內容創作等領域。此外,產品的用戶體驗、內部運營效率等現實KPI指標也驅動著視頻內容理解技術的發展。比如,在前些年,基本上視頻推薦還是圍繞用戶行為、視頻標簽等去進行的,而現在,基本上已經過度到視頻本身領域,產出的是一些不可描述的特征,或是很小一部分可檢測的內容。
深度學習的興起則是視頻內容理解技術的助燃劑。傳統機器學習算法下的計算機視覺/語音,研發步驟繁瑣,并且對領域知識依賴度非常高,特征處理復雜度也非常高。需要領域專家+算法專家不斷反復調試模型。隨著深度學習的發展,基礎算法模型效果得到了質的提升,比如在人臉檢測、人臉識別、語音識別等領域已經超出人的水平。為視頻內容理解提供基礎技術支撐。因此,可以說,深度學習、產品需求的相互驅動,讓視頻內容理解領域慢慢滲透到產品和用戶的多個方面。
VIPKID一天有接近300W分鐘的視頻數據。拆解來看,每天需要處理400W分鐘的語音+3億張的圖片數據。在語音領域,要去做語音識別、噪音識別、語音情感識別等,在圖像領域,要去做人臉識別/檢測,因此挑戰非常大。
VIPKID通過自研+與第三方技術廠商(如阿里云、騰訊云、亞馬遜云、Face++、馳聲)通力合作,建立了一整套的解決方案,包括部分臉識別、多種特定手勢識別、AI看課等。
在機器審核、課程質量評估、精彩片段等項目中,核心的誤召回主要是由于老師、學生的部分臉識別效果較差,VIPKID通過前后標注和優化多次模型,作為人臉識別的補充,額外多召回10%的臉部圖像。
此外,VIPKID通過多種模型,對多種特定手勢的檢測,實現了手勢的檢測和分類。通過機器審核,使效率提升了100倍。
美團大眾點評高級技術專家王永康:美團外賣商業變現實踐
美團外賣目前用戶數超過了3億,商家數超過了360萬。基于這樣的背景,美團外賣也進行了廣告變現方面的探索,當前包含信息流廣告、搜索廣告、展示廣告等產品形式,CPT、GD、CPM、CPC等售賣模式,在這樣的業務背后,是有一套相對完成的業務邏輯和技術手段在支撐的。
王永康詳細介紹了外賣的模型演進的過程。針對電商場景統計類的連續特征較多,刻畫能力較強,所以美團外賣開始用的是xgboost,為了提升迭代效果,美團外賣從xgboost轉移到了lgb,訓練速度提升了2倍。現在的模型迭代一般是先用lightgbm迭代上一個基礎版model。
當然樹模型有一些局限性,比如對序列信息的表達、對稀疏、高維的離散特征的表達相對較弱,所以會往DNN上遷移。
上圖是外賣廣告預估模型的演進。
在平臺側,主要是收入優化。在外賣的場景里有很多的多模態的信息,如圖像、文本、菜品圖像等,比如做菜品預估的時候,對菜品做排序,菜品圖片信息就顯得比較重要。美團外賣最早使用的是兩段式,先用訓練好的CNN網絡把圖像表示成Embedding,給到模型。后來直接把一個VGG16的網絡做了一些簡化,直接連接到模型中做end2end的訓練。
對于文本信息,可以直接當做離線特征喂給模型,也可以pre-train好的word的Embedidng喂到模型,或者在模型結構上對文本序列接一個LSTM。
對于序列特征,不同的行為串聯不同的實體可以產生不同的序列,例如“點擊”的“POI”序列、“下單”的“圖像”序列等等,不同的序列能夠捕捉用戶不同的行為、語義、視覺偏好,可以直接把ID序列喂給模型,或者采用表示學習的方法對ID學習Embedding表達,將Embedding序列輸入模型,更上層的可以做一些Pooling、Similarity、Attention操作等。
在多目標學習中,外賣的場景涉及到曝光、點擊、下單、以及下單金額的問題,所以相應的模型就會去預估ctr、cvr、price。在傳統預估CVR的時候,訓練樣本用的是點擊+轉化的數據,是看不到曝光數據的,預估Price的時候,訓練樣本用的是轉化+轉化金額的數據,是看不到曝光和點擊數據的,而在預測的時候是一起預測,就造成了訓練和預測的樣本分布不一致的問題,美團外賣的方法是通過共享embedding層或者局部網絡層的方式去解決。
在商家側,會去優化商家的投入產出比。美團外賣用機器學習來解決業務問題可以分成兩部分,一是業務問題如何轉化成機器學習問題,二是機器學習如何優化業務問題。
上圖是如何根據業務設計合理的State、Reward、Action。
中間的環節相當于一個黑盒,需要用模型去建模從state到reward的整個的過程。關鍵的問題就是如何通過state中feature的設計,能夠將中間的環節進行刻畫。
在用戶側,主要是體驗優化。美團外賣從Utility角度理解用戶體驗,將用戶體驗分成了三個階段:短期體驗、中期體驗、長期體驗。
王永康***總結說,美團外賣通過模型預估和機制設計在平臺側進行收入優化,通過OCPC從人工策略到強化學習的迭代進行商家側轉化優化,通過用戶體驗建模優化進行用戶側體驗優化,最終實現了美團外賣的商業變現。
以上內容是51CTO記者根據WOT2019全球人工智能技術峰會的《機器學習實踐》分論壇演講內容整理,更完整WOT內容請關注51cto.com。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】