三位大咖亮相WOT AI峰會(huì)機(jī)器學(xué)習(xí)會(huì)場(chǎng),揭秘AI如何賦能行業(yè)應(yīng)用
原創(chuàng)【51CTO.com原創(chuàng)稿件】2018年,人工智能作為人類開創(chuàng)未來最耀眼的技術(shù)之一,正在深刻影響著全球產(chǎn)業(yè)結(jié)構(gòu)、商業(yè)模式、城市形態(tài)以及人類生活工作方式。如何讓人工智能技術(shù)為行業(yè)賦能,讓眾多行業(yè)共享科技生產(chǎn)力,是數(shù)字化轉(zhuǎn)型浪潮下的重要課題。作為推動(dòng)人工智能務(wù)實(shí)創(chuàng)新的年度重要活動(dòng),11月30日-12月1日,WOT2018全球人工智能技術(shù)峰會(huì)在北京•粵財(cái)JW萬豪酒店盛大召開。60+國(guó)內(nèi)外人工智能一線精英大咖與千余名業(yè)界專業(yè)人士齊聚現(xiàn)場(chǎng),分享人工智能的平臺(tái)工具、算法模型、語音視覺等技術(shù)內(nèi)容,探討人工智能如何賦予行業(yè)新的活力。
11月30下午,A會(huì)場(chǎng)機(jī)器學(xué)習(xí)分論壇召開,三位資深專家受邀出席發(fā)表精彩演講,會(huì)后51CTO將專家發(fā)言整理成文,希望他們的演講內(nèi)容精華對(duì)大家有所幫助。
楊雪峰 深圳追一科技有限公司高級(jí)研究員
閱讀理解技術(shù)探索與在企業(yè)服務(wù)中的應(yīng)用
楊雪峰的分享主要有兩部分重點(diǎn),首先他介紹了機(jī)器閱讀理解的現(xiàn)狀、市場(chǎng)上前沿技術(shù),以及機(jī)器閱讀理解的背景、意義、方法論。其次他分享了AI技術(shù)落地的難點(diǎn)與閱讀理解技術(shù)的產(chǎn)品化實(shí)踐。
在楊雪峰看來,機(jī)器閱讀理解通俗來說就是針對(duì)給定的問題找到用戶需要的答案,答案可能是文字,也可能是圖片、數(shù)字、符號(hào)、片段,不同的答案形式,難度也有很大區(qū)別,通常通過不同的數(shù)據(jù)集來處理。他在現(xiàn)場(chǎng)介紹了目前主流的四個(gè)英文數(shù)據(jù)集,即谷歌發(fā)明的CNN & Daily Mail數(shù)據(jù)集、微軟MCTest數(shù)據(jù)集、斯坦福創(chuàng)建的SQuAD1&2數(shù)據(jù)集,以及微軟的MS MARCO萬量級(jí)數(shù)據(jù)集。此外中文數(shù)據(jù)集做的比較好的有百度的DuReader和科大訊飛的CMRC數(shù)據(jù)集。
楊雪峰還在現(xiàn)場(chǎng)舉了幾個(gè)機(jī)器閱讀理解的應(yīng)用場(chǎng)景:
一是客服和新員工培訓(xùn)場(chǎng)景。由于客服流動(dòng)性較大,企業(yè)需要盡量減少培訓(xùn)環(huán)節(jié),讓客服人員盡快上崗,熟悉操作手冊(cè)和業(yè)務(wù)常用文檔,而通過機(jī)器閱讀理解產(chǎn)品,可以第一時(shí)間解答員工疑問,幫助員工熟悉業(yè)務(wù);
二是在金融領(lǐng)域里提供專業(yè)咨詢服務(wù)。由于人手有限,基金經(jīng)理無法回答所有人的提問,但是通過機(jī)器閱讀理解,可以讓用戶自主查詢到詳盡的文檔和數(shù)據(jù),提升用戶體驗(yàn);
三是兒童興趣早教,可以給兒童提供用于教育應(yīng)用的通用知識(shí)問答系統(tǒng),例如兒童早教機(jī)、嬰幼兒輔導(dǎo)等環(huán)節(jié),孩子們可以在娛樂中豐富自己的知識(shí)。
楊雪峰在現(xiàn)場(chǎng)還以他們?yōu)槟戏胶娇仗峁┑慕鉀Q方案現(xiàn)身說法,他表示南方航空每周都會(huì)推出各種活動(dòng),每當(dāng)這時(shí)客服人員都需要解答大量多的問題,追一科技會(huì)從上千篇文檔集中篩選出最容易被咨詢的文檔,建立模型通過自動(dòng)抽取功能,推薦很多問答字段,簡(jiǎn)化企業(yè)標(biāo)注流程,并做出細(xì)致的標(biāo)注,盡可能讓用戶簡(jiǎn)單使用,滿足高并發(fā)訪問場(chǎng)景。“未來這個(gè)領(lǐng)域還有很多挑戰(zhàn),尤其是金融客戶大多都是私有化部署,數(shù)據(jù)是一個(gè)閉環(huán)系統(tǒng),他們希望能夠疊加自己的數(shù)據(jù)訓(xùn)練新的模型,而讓服務(wù)商只提供產(chǎn)品邏輯即可。”
俞圓圓 杭州威佩網(wǎng)絡(luò)科技有限公司CTO
深度學(xué)習(xí)在電子競(jìng)技行業(yè)中的應(yīng)用
俞圓圓在一開場(chǎng)就表示,傳統(tǒng)體育行業(yè)的數(shù)據(jù)分析方式并不適用于電子競(jìng)技領(lǐng)域。同樣是數(shù)據(jù)搜集,傳統(tǒng)體育行業(yè)是以人工搜集和技術(shù)搜集同步進(jìn)行,例如某個(gè)球員又進(jìn)了進(jìn)個(gè)球,需要人工根據(jù)現(xiàn)場(chǎng)情況進(jìn)行登記,而且更多的是依賴現(xiàn)場(chǎng)專業(yè)人員進(jìn)行解讀。而這些數(shù)據(jù)分析的手段在電子競(jìng)技領(lǐng)域則行不通,例如電子競(jìng)技選手往往一天可以打幾十場(chǎng)游戲比賽,游戲迭代快,游戲規(guī)則和邏輯多變,傳統(tǒng)數(shù)據(jù)分析很難跟得上變化節(jié)奏。除此之外,游戲里角色復(fù)雜,每個(gè)角色的裝備、團(tuán)隊(duì)貢獻(xiàn)值、傷害力等多重指標(biāo)都需要做一個(gè)數(shù)據(jù)分析和展示。更特殊的是,電競(jìng)行業(yè)參與者的主觀意識(shí)都很強(qiáng),認(rèn)知差別大,很難套用傳統(tǒng)體育專家分析的模式。“在過去的電競(jìng)數(shù)據(jù)分析中,很多的團(tuán)隊(duì)使用的傳統(tǒng)數(shù)學(xué)模型,往往會(huì)被玩家和用戶指責(zé)不夠客觀或是不夠全面。使用深度學(xué)習(xí)的話,就可以很有效的規(guī)避這些問題。”
對(duì)比傳統(tǒng)數(shù)學(xué)模型,深度學(xué)習(xí)具有可塑性、普適性、高效性三大優(yōu)勢(shì)。俞圓圓指出,深度學(xué)習(xí)的模型可以是很多很多的building block,可以把很多問題全部變成工程化的問題,經(jīng)過訓(xùn)練后很快就可以搭建模型,而且模型很容易被移動(dòng)到另外一個(gè)項(xiàng)目上。當(dāng)然,俞圓圓也坦言,電競(jìng)行業(yè)的深度學(xué)習(xí)也有缺點(diǎn),需要非常多的訓(xùn)練數(shù)據(jù),而且也不能直接學(xué)習(xí)和理解。“當(dāng)深度學(xué)習(xí)和電子競(jìng)技游戲結(jié)合以后,處理大量的數(shù)據(jù)也不需要人工因素的干擾,客觀性更好,而且可以快速完整處理大批量數(shù)據(jù)。”
演講最后,俞圓圓詳細(xì)介紹了一個(gè)勝率分析項(xiàng)目AlphaMao,來展示他們?nèi)绾芜\(yùn)用深度學(xué)習(xí)的技術(shù)和模型解決電競(jìng)問題的。在半年的時(shí)間中,模型每天都在通過學(xué)習(xí)新的比賽樣本來更新自己的模型,訓(xùn)練數(shù)據(jù)來自六千萬場(chǎng)電競(jìng)比賽。由于游戲規(guī)則更迭很快,所以他們既要學(xué)習(xí)過去的數(shù)據(jù),又要更新最新的數(shù)據(jù),而且要隨時(shí)調(diào)整提高更新數(shù)據(jù)的權(quán)重比例,最終模型擁有60%的總體準(zhǔn)確率以及高達(dá)97.6%的相對(duì)準(zhǔn)確率。
“未來我們關(guān)注的方向主要有三個(gè)。” 俞圓圓透露,他們將在模型中添加上時(shí)間數(shù)據(jù),爭(zhēng)取可以做到實(shí)時(shí)勝率分析,而且還將對(duì)對(duì)勝率進(jìn)行分析,為玩家提供更直觀有效的建議。除此之外,他們希望深度學(xué)習(xí)模型可以輕易的移植到其他游戲中。
賈榮飛 淘寶高級(jí)算法專家
重新定義人貨場(chǎng)——端上智能,情景計(jì)算
賈榮飛在演講中談到,消費(fèi)者在購(gòu)買東西的時(shí)候,不同場(chǎng)景下有不同的需求,例如在公司里由于時(shí)間緊迫,人們希望更快下單,但是如果是在家里,人們則更愿意舒舒服服躺在床上慢慢瀏覽購(gòu)物頁面。鑒于此,淘寶希望能夠重新定義人貨場(chǎng),加大對(duì)用戶手機(jī)上信息的理解,改變電商與消費(fèi)者多的交互模式,從而推動(dòng)電商智能化發(fā)展。
當(dāng)越來越多的貨品通過電商銷售,如何準(zhǔn)確理解消費(fèi)者的需求變得更加重要。賈榮飛認(rèn)為,智能手機(jī)時(shí)代給這一切提供了可能,它可以定位用戶的實(shí)時(shí)狀態(tài),然后淘寶通過情景計(jì)算技術(shù)對(duì)用戶實(shí)時(shí)狀態(tài)進(jìn)行分析和理解,更聚焦地了解客戶此次此刻需要什么。“這比原來的推薦搜索更進(jìn)一步理解用戶。”他坦言,這里也存在很多難點(diǎn),一來用戶信息量很大,如何在復(fù)雜信息中抽取有效信息?二來隨著處理的數(shù)據(jù)量越來越大,電商的計(jì)算能力如何支撐更大的信息量和更復(fù)雜的模型?這是非常有挑戰(zhàn)性的課題。
據(jù)賈榮飛介紹,淘寶對(duì)于情景計(jì)算的訴求主要是希望能夠?qū)崟r(shí)處理用戶的訂單,對(duì)于單一用戶希望有更大的算力進(jìn)行服務(wù),在這樣的需求下,淘寶毫不猶豫地選擇將計(jì)算力在客戶端部署為主,在云上更多的是構(gòu)建全局模型,用戶之間實(shí)現(xiàn)信息共享,整體情景計(jì)算的架構(gòu)設(shè)計(jì)“以端為主,以云為輔。”而深度學(xué)習(xí)的模型就被應(yīng)用在對(duì)用戶信息的甄別和理解上,對(duì)于判斷用戶所處環(huán)境非常有幫助。
由于這些模型都是復(fù)雜模型,而復(fù)雜模型在端上不可避免的會(huì)遇到計(jì)算能力的問題,所以淘寶就開始研究如何通過端上框架的改進(jìn)來支持可計(jì)算性。賈榮飛介紹到,首先在端上會(huì)有原始數(shù)據(jù)的采集,定期獲取用戶實(shí)時(shí)狀態(tài),發(fā)送到基礎(chǔ)模型生產(chǎn)出中間數(shù)據(jù),為應(yīng)用產(chǎn)品進(jìn)行服務(wù)。同時(shí)在云端,淘寶會(huì)完成模型的訓(xùn)練,再定期同步到用戶手機(jī)端,用實(shí)驗(yàn)和各種參數(shù)確保用戶擁有良好的使用體驗(yàn)。
“下一步我們希望在三個(gè)方向上做更多的嘗試,”賈榮飛透露,第一個(gè)是做用戶需求發(fā)現(xiàn)引擎,能夠分析出用戶在不同場(chǎng)景的喜好,第二個(gè)是實(shí)現(xiàn)從千人千面到千人千模,充分發(fā)揮用戶手機(jī)端的計(jì)算能力和對(duì)用戶的深入理解,在每個(gè)手機(jī)上訓(xùn)練出一個(gè)針對(duì)單一用戶更個(gè)性化的東西。最后一個(gè)是云+端的聯(lián)合學(xué)習(xí),淘寶希望把云+端的信息聯(lián)合在一起進(jìn)行訓(xùn)練,取得更好的效果。
以上內(nèi)容是51CTO記者根據(jù)WOT2018全球人工智能技術(shù)峰會(huì)的《機(jī)器學(xué)習(xí)》分論壇演講內(nèi)容整理,更多關(guān)于WOT的內(nèi)容請(qǐng)關(guān)注51cto.com。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】