成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度 | 兩個案例,掌握AI在大數據領域的前沿應用

企業動態
如果大家對阿里巴巴的新聞比較關注,最近可能會頻繁聽到阿里巴巴談到“五新”這個詞,“五新”中的其中一個概念是新能源。其實新能源就是大數據本身。技術、數據和算法三個方面結合在一起,才可以把數據真正用起來。

近日,全球技術學習技術大會***在京舉行,阿里巴巴數據技術及產品部資深算法專家楊紅霞(鴻俠)作為特邀嘉賓出席并發表主題演講。鴻俠從什么是數據新能源說起,接著介紹了阿里目前比較成功的兩款數據產品,一個是是自動化標簽生產,另外一個是大規模分布式知識圖譜,以及在此之上的一些重要應用。***是她對機器學習和人工智能技術對數據新能源產業中有效落地的一些建議和期望。

??

[[197056]]

??

下面是基于鴻俠現場演講內容摘要:

如果大家對阿里巴巴的新聞比較關注,最近可能會頻繁聽到阿里巴巴談到“五新”這個詞,“五新”中的其中一個概念是新能源。其實新能源就是大數據本身。技術、數據和算法三個方面結合在一起,才可以把數據真正用起來。

??

??

大家都知道,Google的數據量很大,但是它的數據源本身其實比較單一。以Google search,Google map等為主導。再來看看Facebook,它更多的是社交行為數據,缺少出行數據、 瀏覽器數據、或者類似優酷的視聽數據。但是,對于阿里來說,上述的這些數據我們都有。我們面臨的極大挑戰是:怎么樣有效的把這些全域數據融合在一起。

首先我們需要把數據有效地收集起來。把數據有效地收集、存儲起來之后,接著要做的就是怎么通過算法把這些數據打通,并且真正有效、智能地把這些數據提煉出來。

??

??

這是阿里的一個生態體系圖。***層是阿里云,這是我們的一個計算存儲框架。上面是阿里媽媽,阿里媽媽是負責整個阿里巴巴計算廣告的一個部門,再上面是菜鳥、支付寶和螞蟻金服。然后是與電商業務相關的,像淘寶網、天貓、聚劃算等等,或者是跟文娛相關的,優酷土豆,還有像阿里旅行,口碑之類的業態。

阿里巴巴數據中臺要做的事情是什么呢?舉一個最簡單的例子,之前有一個比較火的電視劇《三生三世》。《三生三世》火熱上映的時候,與之相關的商品元素,比如飲食或者穿戴之類的商品,也會瞬間在淘寶網上火爆起來。那么如果我提前就知道某一類人群是《三生三世》的粉絲,我就可以在淘寶網上做非常高效的、準確的定位推廣。阿里數據要做的是:把數據真正打通,深度挖掘數據的價值,為業務創新應用提供數據決策基礎和依據。

下面具體介紹一下數據融合的技術框架。因為在真正進入算法之前,我們一定要對數據進行非常認真、仔細地進行清洗過程。俗話說,如果你的數據不清洗,其實就是“learn trash from trash”。所以數據本身一定要做得非常干凈。

??

??

首先來看一下架構圖,***個數據層中有各種各樣的數據,比如有消費數據,有廣告數據,出行數據等等。把這些數據層經過有效結合在一起之后,接下來得到這種特征層的提取。在阿里數據內部,大概有這樣幾個比較抽象的維度:像賬號設立的靜態特征,電商行為的特征,或者設備的特征等等。

在特征層之上,我們會有模型層, 這里面有基于業務規則的模型,也有其他的例如異常檢測,有監督或者無監督的學習,然后特征的聯合校驗等模型。因為我們的數據源非常多,因此我們也可以通過部分的數據源驗證另外一個數據源,看數據的增長或者留存是否處于一個正常范圍。另外還有一些比較好的方法,比如基于Graph的一些算法,實時的反作弊算法等等。在算法層之上,就是評估層。在評估層內,我們可以判斷留下來的數據是否是真正有效的數據。

在上述這些數據層的上面,會有一個應用層,也同時會抽象出一些產品來幫助內部員工或者外部商家進行使用。所以,整個數據中臺實際上是從底到上對數據進行清洗的一個架構。

當我們有了非常干凈的數據之后,我們要做的就是把數據打通。我剛才說了,阿里生態體系會呈現出幾百個不同的數據源,這些數據源本身的數據量非常大,收集模式也各不相同。那么我們是如何進行數據之間的融通的呢?

??

??

上圖是這是我們關于怎么把數據打通的一個技術架構。大家可以看到,整個技術體系都是,先把數據接進來,再通過一些機器學習或者深度學習的辦法(像word2ve,node2vec, TFIDF,歸一化等)處理特征層,之后映射到一些比較抽象的高緯度Level(比方說像用戶的身份信息,網絡的環境相似度,文本的相似度,APP相似度等等)。抽象完這些特征層之后,我們究竟怎樣去判斷。

這期間的方法大致可以分為四種有效的辦法:

深度學習的模型

非線性模型

線性模型

圖模型

此外,還有一些基于規則的強召回,就是比如說用戶有相同的賬號登陸不同的地方。這些是所謂的強召回,它可以非常準確地被判斷出來。弱召回就是基于算法特征層的這些模型,有效地判斷出所有信息是否真正屬于同一個自然人。下面,基于剛才的打通融合的數據之后,介紹兩個數據應用類產品。

1、自動化標簽的生產

在電商業務中,我們想知道這個人背后更多的其他方面的特征。所以,我們會有一個自動化標簽生產的體系,快速地進行標簽生產。比方說上傳一些種子用戶,比較類似于像Facebook 的Look alike audience,可以快速在幾千萬個特征中選出來最重要的那些特征,然后通過最重要的這些特征對于那些還沒有打標的龐大人群進行打標。

在阿里數據中臺,我們研發了一個叫“自動化標簽生產”的體系。這個體系需要滿足三個需求:

需求的響應速度一定要快。

標簽生產的負荷能力要強。

對于這個標簽生產數據源是有一定要求的,就是你要做出判斷,不是他上傳了一批種子用戶,他對某一些標簽有需求,我們的數據量,或者數據就一定是足夠幫你產生這些標簽的。

所以,基于剛才的一些要求,我們推出了“標簽工廠”的這一套服務體系。它可以達到幾個目的:

降低成本。現在我們有一個可視化界面,只要你上傳一個種子用戶,按照你自己的要求,大概在一兩個小時之內,幫你快速生產標簽。

質量。當你在產生***輪標簽的時候,其實更多的還是基于對算法本身的一個評估判斷。標簽真正上線之后,在業務的指標上面會不停產生反饋,所以我們實時的把這些業務反饋放進在標簽生產體系,不停地幫助優化標簽的產生。

保證數據安全。

下面具體看一下我們的技術架構:

??

??

***,數據源。你可以認為,整個數據新能源的數據源都是接到下面,經過數據清洗、打通之后,來到一個標簽工廠的體系。在標簽工廠,首先會進行一定特征學習(feature engineering),比方說有一些像類型判斷、分層、降維,因為數據量非常大,通過深度學習,深度表征去學習出特征之間的非線性關系,和它們之間的high order interaction。

接下來就是打標。首先可以傳一批種子用戶,由于你打標簽的這部分種子用戶是非常小的一部分用戶,所以還涉及到快速擴充Label,或者通過不停的這種adaptive learning去訓練完之后,可能通過算法的輸出,可以增加一些更有效的確實是能反映出你的Label真實的樣本集。

如果你的標準樣本很多,很豐富的情況下,你可以用有監督的學習。有監督的學習,其實有線性的、非線性的或者是基于深度學習的。真實情況是有label的sample很少,在更多情況下我們需要使用半監督的算法,例如self-training, co-training等。

2、大規模分布式知識圖譜

講完標簽工廠之后,介紹另外一個產品,大規模分布式知識圖譜。大規模知識圖譜抽象也是一種圖計算。首先談一下基于大規模分布式知識圖譜做了哪些工作,以及我們為什么要做這樣一件事情。

阿里巴巴的生態非常豐富,而豐富的業態背后給我們數據工作者帶來的困難就是,我們常常需要接入各種數據,并將他們有效地管理和整合起來,傳統的方法,我們可能需要花幾個月,投入幾十個人做這樣一件事情,對數據進行打標。

但是,假設我們已經知道數據和數據之間的一些關系,而且也知道數據表中哪些表之間調用的血緣關系。那么,如果我只是對調用次數最多的表進行非常精確地打標,然后用基于知識圖譜的方法,對剩下的90%表進行推理式的Label打標,就能極大節約了人力成本。所以這就是我們為什么要用知識圖譜去做數據接入這樣的事情。那么,對于數據管理也是同樣的道理。

假如只有1G的數據,你可以很快地回答出數據分布的情況和質量。而我們的現狀時,我們的數據達到ZB級別的規模。因此對數據管理來說,挑戰不容小覷。同樣地來看看數據應用方面的情況。我們基于數據應用,實際上也有一款產品叫做“數據地圖”。

數據地圖是干什么呢?其實就是當你進行一個查詢,在這個產品里會自動幫你反饋出一個最相關的表。延伸開來的是我們想要做得下一步工作:當你下一次進行查詢后,能直接返回出相應的SQL,再產生出相應的表和相應的結果——這是我們想做的智能取數。

下面介紹一下知識圖譜在數據管理和數據應用方面的落地進展。目前我們開發了一些基于幾十萬張、上百萬張ODPS表的知識圖譜。說一下我們的結果:

在數據資產管理中,有一項重要的工作就是判斷數據的歸屬。我們有上百萬張的線上表,其中可能有幾萬張到幾十萬張的表能夠比較清楚判斷是屬于哪個團隊,可以在數據版圖上打標。但是,還有上百萬張沒有打標的表,因為這個表屬于異構的。在之前,通過一些人工的規則,它的歸屬判斷準確率大概是55%,而通過前面介紹的知識圖譜框架,準確率可以提升到88%。所以,它對數據資產管理的準確性起了顯著的提高作用。

接下來講一下知識圖譜在數據應用當中的一個技術框架,其實也是比較類似的:

??

??

首先,數據層。因為是一個知識圖譜的構建,所以上面要加個辭典層和語義層。再上面就是基于推理層。在推理上,用的方法有大家比較熟悉的像隨機游走和延伸等。那基于標注的,我們其實嘗試了很多種方法,比方說張量分解等。

目前為止比較成功的是PRA(path rankingalgo),我們研發了幾個主流的graph feature model,PRA在大規模分布式知識圖譜推理上,在我們的問題中,表現是***的。什么是PRA,其實是把這些路徑抽象出來,然后就是學習一下再推薦這個路徑,但是它對于我剛才說的很多文本信息并沒有有效的利用起來,比如對于這些表的描述,在最原始的PRA當中路徑本身的位置是有考慮進去的,當然我對于這些描述,可能會知道也許這個路徑更有效。所以,后來我們看了一下這個Trans系列,其實類似text analysis 中的word2vec vs tfidf。確實在我們整個的剛才說的案例當中也是有比較大的提高。

看一個具體的例子,在數據地圖當中,知識圖譜到底是怎么工作的:

??

??

你打出一個查詢,首先就是基本的分詞與分析,其實大家可以看到,我們這個場景也是相當于搜索反饋一個結果,但是其實它和傳統的搜索是不一樣的:傳統的搜索像Google、百度,其實它關心的指標是你準確的那個值是不是在TOP5或者***0。

但是,我們這個場合下一定要反饋唯一的、準確的表。所以,接下來我們會有一些模板匹配,所以這里非常重要的一部分是人機交互這一塊,把人機交互的結果,就是人要告訴你說,這個結果是否是他想到的,然后知識圖譜整個剛才的框架有效的結合在一起,然后產生出你真正想找到那張表,然后整個的這個過程,其實這些是一些抽象出來的模板,這些模板可能是不夠的。因為隨著人的查詢越來越多,模板也需要慢慢的擴展。現在我們還是基于一些規則判斷一些模板,未來我們也會嘗試,讓這個機器自動產生一些模板。

所以總結一下,我剛才給大家大概介紹了一下什么叫數據新能源,以及我們在數據新能源上兩個成功產品,一個是自動化標簽的生產,可以在非常快速的在幾個小時之內,為幾億人打上有效的標簽,并且快速的驗證落地。另外一個是大規模分布式知識圖譜,以及兩個應用的比較好的產品,一個是數據資產管理,另外一個是數據地圖,就是快速的查詢這個有效的表。未來我們想做的不只是一個表本身,也許就是一個query對應的sql,對應的你***的結果。

***再講一下我們對于整個工業界中機器學習怎么才能成功落地的一些建議:

***,必須要有大數據。如果沒有大數據,其實很多的挑戰你是看不到的。而且大數據本身一定是要豐富多樣的,如果數據源本身過于單一,其實對模型的挑戰是比較小的。所以你的數據源本身多樣性比較要多,機器學習才會發揮出更大的作用;

第二,一定要有計算平臺。像現在阿里云給我們提供了一個非常好的保障;

第三,你開發的算法一定是要通用的。就是大家可能是在這個公司工作會發現,每開發一套算法,投入的人力和時間和成本都是比較高的。所以說你的算法本身可延展性一定是要比較好的。

【本文為51CTO專欄作者“阿里巴巴官方技術”原創稿件,轉載請聯系原作者】

??戳這里,看該作者更多好文??

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2015-05-25 16:12:28

大數據公安領域應用

2020-12-25 13:51:49

大數據醫療大數據

2022-12-21 09:48:12

大數據

2015-11-02 16:41:08

應用案例大數據

2022-09-28 15:23:04

隱私計算AI

2021-12-07 06:55:17

云遷移數據中心保險

2016-10-12 19:14:31

2022-03-24 10:12:48

大數據大數據技術

2022-05-11 11:09:06

大數據醫療保健

2024-07-08 09:11:53

MongoDBAI大數據

2016-11-28 08:56:15

透析大數據核心

2023-03-10 07:30:24

2021-01-21 11:36:01

區塊鏈醫療安全

2014-04-29 14:56:07

大數據

2015-07-29 13:20:49

應用大數據

2013-09-04 13:35:08

初志科技大數據

2022-03-05 23:15:38

大數據數據分析互聯網

2017-12-26 16:42:41

AI大數據征信行業

2018-12-24 11:13:32

WOT2018AI人工智能

2021-02-02 10:08:17

AI深度強化學習智能城市
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 97精品超碰一区二区三区 | 手机av在线 | 亚洲日日操 | 国产一区二区三区视频免费观看 | 亚洲视频在线观看 | 国产精品精品视频一区二区三区 | 国产二区三区 | av免费观看在线 | 中文在线播放 | 日韩中文久久 | 日本又色又爽又黄又高潮 | 一级片免费观看 | 国产精品久久久久久久久久久久久 | 精品三级在线观看 | 亚洲一区 | 欧美精品一区二区三区在线 | 99精品国产成人一区二区 | 美女视频一区二区三区 | 久久久夜色精品亚洲 | 天天拍天天射 | 国产免费又黄又爽又刺激蜜月al | 夜夜干夜夜操 | 日韩国产高清在线观看 | www.国产精| 亚洲精品乱码久久久久久蜜桃 | 亚洲最新在线视频 | 欧美日韩成人一区二区 | 亚洲精品9999久久久久 | 97精品超碰一区二区三区 | 激情网站在线 | 免费观看黄a一级视频 | 久草电影网 | 国产精品视频久久久 | 91香蕉视频在线观看 | 国产高清视频 | 在线一区观看 | 日日天天 | 看片国产| 国产日韩欧美激情 | 特黄级国产片 | 国产专区在线 |