成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首次解密小紅書“種草”機制:大規(guī)模深度學(xué)習(xí)系統(tǒng)技術(shù)是如何應(yīng)用的

人工智能 深度學(xué)習(xí)
當前,大規(guī)模深度學(xué)習(xí)系統(tǒng)正發(fā)生著許多令人興奮的進展。10 月 15 日“小紅書 REDtech 青年技術(shù)沙龍”活動中,小紅書技術(shù)副總裁凱奇進行了《大規(guī)模深度學(xué)習(xí)系統(tǒng)技術(shù)及其在小紅書的應(yīng)用》分享,為我們揭開 LarC 的“神秘面紗”。


AI 引領(lǐng)的新一代信息技術(shù),正驅(qū)動新一輪科技浪潮席卷而來。作為近年來國內(nèi)發(fā)展最為迅速的移動互聯(lián)網(wǎng)平臺之一,小紅書乘勢而上,目前已經(jīng)形成了以圖文和短視頻內(nèi)容為主的超大型 UGC 社區(qū)。在這個獨特而活躍的社區(qū)里,每天都會產(chǎn)生海量多模態(tài)數(shù)據(jù)及用戶行為反饋,催生出兼具價值與挑戰(zhàn)的新問題。

當前,大規(guī)模深度學(xué)習(xí)系統(tǒng)正發(fā)生著許多令人興奮的進展。10 月 15 日“小紅書 REDtech 青年技術(shù)沙龍”活動中,小紅書技術(shù)副總裁凱奇進行了《大規(guī)模深度學(xué)習(xí)系統(tǒng)技術(shù)及其在小紅書的應(yīng)用》分享,為我們揭開 LarC 的“神秘面紗”。

凱奇:小紅書技術(shù)副總裁,畢業(yè)于上海交通大學(xué),曾擔(dān)任歡聚時代技術(shù)副總裁和百度鳳巢首席架構(gòu)師,負責(zé)百度搜索廣告 CTR 機器學(xué)習(xí)算法工作。曾任 IBM 深度問答(DeepQA)項目中國技術(shù)負責(zé)人。

以下內(nèi)容根據(jù)凱奇現(xiàn)場報告整理

1、小紅書業(yè)務(wù)概覽

普通人的真實生活體驗分享

小紅書是一個蓬勃發(fā)展的內(nèi)容社區(qū),大量懂生活、愛分享的人在這里交換著彼此的生活體驗和生活態(tài)度,并不斷吸引著越來越多的用戶加入。現(xiàn)在,小紅書已經(jīng)有 2 億的月度活躍用戶,90 后占比 70% 以上,50% 的用戶來自于一、二線城市,也有一半來自于三、四線城市,用戶構(gòu)成非常豐富和年輕化。

“普通人”在分享他們“真實”的“生活體驗”,是小紅書與其他內(nèi)容平臺和社區(qū)非常大的一個不同點。首先,分享者都是“普通人”,其次,“真誠分享,友好互動”是小紅書社區(qū)公約,“真誠”是很重要的一點。這些社區(qū)中的分享和我們的線下生活消費有著緊密的聯(lián)系,比如寶藏書店、或是怎么穿衣搭配、怎么裝修、怎么做菜等內(nèi)容,都是大家的日常“生活體驗”。

圖片

我們用一些數(shù)字也可以去衡量小紅書社區(qū)這些年的發(fā)展,我們看到,筆記發(fā)布量從 2018 年到 2021 年是每年都以非常快的速度在增長,2020 到 2021 年,小紅書用戶筆記發(fā)布量同比增長超 150%。

圖片


三大主要業(yè)務(wù):社區(qū)、商業(yè)化、電商

在這樣一個高速發(fā)展的內(nèi)容社區(qū)里,最主要的三大業(yè)務(wù)就是社區(qū)、商業(yè)化和電商。

首先,我們的內(nèi)容社區(qū)和內(nèi)容平臺是一個覆蓋全生活品類,以 UGC 為主的生活方式內(nèi)容社區(qū)。也因為這種貼合生活和日常消費的“真誠分享”,用戶對我們的社區(qū)內(nèi)容有很高的信任度,大家在看到好的生活方式、消費內(nèi)容、服務(wù)和產(chǎn)品等時會被“種草”,我們通過獨特的“種草”商業(yè)模式帶來品牌和效果的轉(zhuǎn)化

“種草后是不是順便可以拔個草”,在消費內(nèi)容的同時,大家也希望能夠自然、方便地買到自己心儀的物品,這是我們高效的閉環(huán)消費場域,也就是電商這一部分。

2、小紅書技術(shù)挑戰(zhàn)

多模態(tài)技術(shù)是當前整個 AI 領(lǐng)域廣受關(guān)注、發(fā)展迅速的技術(shù)方向之一,UGC 社區(qū)和內(nèi)容生態(tài)中包含大量的圖文、視頻、文字和用戶行為信息,產(chǎn)生了海量高質(zhì)量的多模態(tài)數(shù)據(jù),因此成為了極佳的實踐場景。用戶看到好的內(nèi)容點贊、做的各種搜索行為、對某個視頻的觀看等等,構(gòu)成了大量用戶實際的反饋。

現(xiàn)在每一天實際通過用戶行為產(chǎn)生的反饋樣本量都有幾百億的級別。如何在海量的多模態(tài)數(shù)據(jù)中挖掘用戶感興趣的內(nèi)容和好的商業(yè)內(nèi)容,從這個目標出發(fā),衍生出很多有價值同時也具備挑戰(zhàn)性的問題.

我們是怎么去解決這些技術(shù)的:

千人千面的實時推薦系統(tǒng)

打開小紅書,首先映入眼簾的就是列的瀑布流或者內(nèi)容流,這些都是推薦系統(tǒng)給大家推薦的內(nèi)容。據(jù)統(tǒng)計,小紅書每天產(chǎn)生的用戶行為達到幾百億級別的規(guī)模。對于這些數(shù)據(jù),小紅書技術(shù)團隊使用基于 LarC 的機器學(xué)習(xí)框架對模型進行訓(xùn)練,根據(jù)用戶行為中的規(guī)律,找出用戶感興趣的內(nèi)容并推薦給用戶。

下圖為小紅書推薦模型的大概結(jié)構(gòu)。這是一個多任務(wù)的機器學(xué)習(xí)模型,它能夠預(yù)估用戶的點擊、停留時長、是否點贊收藏等行為。針對小紅書平臺產(chǎn)生的海量的系數(shù)參數(shù),小紅書通過超大規(guī)模無沖突的參數(shù)服務(wù)器,對這些參數(shù)進行更新和捕捉。

圖片

推薦系統(tǒng)的 Online Training 如下。當用戶在瀏覽信息流的時候,推薦系統(tǒng)會實時捕捉用戶的瀏覽、點擊、點贊等行為,這些行為會基于 Flink 實時處理的計算引擎對這些數(shù)據(jù)進行拼接,從而產(chǎn)生高性能的樣本,然后這些樣本會被實時送到模型中去做預(yù)估。同時,這些短暫累積的樣本也會用來做一次非常短暫的 Online Training 以更新模型參數(shù)。這些更新后的模型參數(shù)會立刻發(fā)布到線上,去服務(wù)下一次的請求。整個過程是保持在分鐘級別的。

圖片

業(yè)界還有一個經(jīng)典問題,比如大家瀏覽推薦內(nèi)容時經(jīng)常會發(fā)現(xiàn):為什么密集地推送我以前看過的東西?我看的東西新鮮感不夠了怎么辦?

圖片

在推薦場景中,關(guān)注較短的時間周期會使得追打和信息繭房問題嚴重,小紅書技術(shù)團隊對用戶的多元化長短期行為設(shè)計了不同的序列建模方式,在多個維度帶來了顯著提升。此外,關(guān)于內(nèi)容推薦的多樣性問題,小紅書技術(shù)團隊將傳統(tǒng)的多樣性做法從 DPP 改進到 SSD 算法,在信息流推薦的場景中高效地滑窗計算,從而將單篇模型的價值排序轉(zhuǎn)化為整個瀏覽周期的建模。這背后依賴的是孿生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)長尾內(nèi)容的相似性。

相關(guān)工作成果我們已經(jīng)發(fā)表在 KDD 2021 會議上,它從單篇價值的預(yù)估轉(zhuǎn)變成一個序列價值的預(yù)估,從單篇的多樣性轉(zhuǎn)變成多篇的多樣性,背后也是基于 SSD 算法,以及基于這個孿生神經(jīng)網(wǎng)絡(luò)對內(nèi)容相似性的評估。

多模態(tài)泛化的生活搜索引擎

由于小紅書社區(qū)包含了的大量實際生活當中非常有用的信息,很多用戶都會把小紅書當作搜索引擎來用。這其中包含一些挑戰(zhàn),比如多種數(shù)據(jù)形態(tài)的搜索、長尾現(xiàn)象嚴重、意圖理解問題等。

現(xiàn)有的圖文搜索引擎,通過文字可以搜索圖片,但做法都相對簡單,通常都是給圖片打上文字的標簽,然后再做文字的匹配。小紅書團隊構(gòu)建的下一代多模態(tài)泛生活搜索引擎,它基于對多模態(tài)內(nèi)容深入的理解,通過圖文、文字真正搜索視覺的內(nèi)容,也能夠根據(jù)用戶的特點去做更加個性化的搜索。

圖片

什么叫做泛生活知識搜索引擎?比如我們在小紅書上看到了一件好看的的衣服或鞋子,想搜一搜它的搭配有哪些,以及在不同場合下它分別展現(xiàn)出怎樣的感覺。這是關(guān)于生活知識的搜索,同時它又是一個多模態(tài)的搜索。

這其中顯示的是小紅書技術(shù)團隊規(guī)劃的多模態(tài),特別是對于搜圖片這樣的技術(shù)架構(gòu),其中非常關(guān)鍵的一個依賴是特征多模塊,需要依賴大規(guī)模的神經(jīng)網(wǎng)絡(luò)去做表征學(xué)習(xí),對圖片中包含的內(nèi)容,無論是衣服、鞋或是其他商品商品,都能有一個很好的表征。很好的從大量的多模態(tài)內(nèi)容當中檢索出相同的商品或者相似的商品,這是我們在搜索上對大規(guī)模神經(jīng)網(wǎng)絡(luò)的一個應(yīng)用。

AI 生成更原生的商業(yè)內(nèi)容

與其他平臺相比,小紅書的商業(yè)內(nèi)容有一個很大的不同點——原生化。所謂原生化,就是從點贊、評論等行為去看,用戶對這個內(nèi)容非常欣賞,可能完全感覺不到它是一個商業(yè)內(nèi)容。但是對于平臺上的商家來說,制作這樣的商業(yè)內(nèi)容的門檻很高。如何很好地平衡商家的商業(yè)意圖與生產(chǎn)內(nèi)容的用戶價值,是一個很關(guān)鍵的問題。

為此,小紅書技術(shù)團隊使用了基于大規(guī)模神經(jīng)網(wǎng)絡(luò)的生成式技術(shù),來幫助商家根據(jù)內(nèi)容去生成更好的標題和內(nèi)容。比如商家可以選擇進行多個賣點表達,也可以選擇突出目標客戶群體,或者是喜歡的小紅書風(fēng)格,機器會自動給出建議的標題,在引用機器創(chuàng)作的標題后,無論業(yè)務(wù)效果、點擊或者是停留時長都得到了很好的提升,用戶也是非常喜歡這樣的內(nèi)容,所以它做到商業(yè)和用戶價值很好的平衡。

圖片

這背后其實是基于大規(guī)模的預(yù)訓(xùn)練模型,包括業(yè)界較為領(lǐng)先的 T5、BERT、GPT 等模型架構(gòu),這些模型架構(gòu)都在小紅書海量的多模態(tài)數(shù)據(jù)上進行了訓(xùn)練。一部分的預(yù)訓(xùn)練模型用來去做筆記內(nèi)容理解,一部分預(yù)訓(xùn)練模型會被用來去指導(dǎo)生成式模型去生成標題,這些都是相關(guān)技術(shù)在商業(yè)領(lǐng)域的應(yīng)用方式。

圖片

大規(guī)模機器學(xué)習(xí)平臺

上述所有的機器學(xué)習(xí)內(nèi)容,其實都是基于小紅書技術(shù)團隊自研的 LarC 機器學(xué)習(xí)平臺。它啟動于 2019 年,到了 2020 年和 2021 年,相關(guān)的機器學(xué)習(xí)框架和平臺推廣到了搜索、推薦、廣告等所有領(lǐng)域。2022 年,LarC 實現(xiàn)了平臺化。

圖片

目前,LarC 機器學(xué)習(xí)平臺的能力已經(jīng)相當完整,涵蓋從底層基礎(chǔ)設(shè)施到計算框架、資源調(diào)度、離線應(yīng)用以及在線部署多個層面(其中標黃部分代表已經(jīng)實現(xiàn))。

圖片

借助 LarC 機器學(xué)習(xí)平臺,小紅書技術(shù)團隊希望能夠幫所有算法同學(xué)迅速、高效地處理海量數(shù)據(jù),訓(xùn)練大規(guī)模機器學(xué)習(xí)和深度學(xué)習(xí)模型。

3、Summary

小紅書是高速發(fā)展的內(nèi)容社區(qū),“普通人”、“真實分享”、“生活體驗”是它的關(guān)鍵詞。

在這樣一個具有海量的多模態(tài)數(shù)據(jù)及用戶反饋數(shù)據(jù)場景下,催生出很多前沿技術(shù)探索。以上是從大量技術(shù)工作當中挑了一些點出來跟大家做分享,其實還有很多內(nèi)容,希望大家能夠從當中對小紅書的技術(shù)和大規(guī)模的深度學(xué)習(xí)有所了解。

責(zé)任編輯:龐桂玉 來源: 小紅書技術(shù)REDtech
相關(guān)推薦

2022-11-30 20:30:18

2016-02-25 09:31:02

2017-03-07 13:14:04

深度學(xué)習(xí)

2023-05-26 08:39:44

深度學(xué)習(xí)Alluxio

2022-07-07 11:00:09

美團模型實踐

2017-10-09 16:51:34

機器學(xué)習(xí)No Free Lun

2018-10-25 09:00:14

應(yīng)用程序IMC平臺開發(fā)

2018-04-12 17:23:41

金融Linux紅旗軟件

2009-04-09 09:32:00

VoWLANWLAN

2010-09-01 15:16:49

WLAN交換機結(jié)構(gòu)

2017-06-27 15:35:02

機器學(xué)習(xí)Spark微博應(yīng)用

2018-02-25 17:42:48

2012-02-21 09:36:30

云計算飛天云計算

2013-05-16 10:02:43

SaaS云計算部署

2013-05-22 09:40:57

大規(guī)模部署SaaSSaaS

2013-05-14 13:30:08

部署SaaS云計算

2024-10-22 15:25:20

2024-09-29 09:50:05

2020-10-19 19:37:18

區(qū)塊鏈李鳴數(shù)字
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 好姑娘影视在线观看高清 | 亚洲一区二区在线免费观看 | av在线播放不卡 | 国产精品日日做人人爱 | 免费观看毛片 | 九九热精品免费 | 午夜免费视频 | 在线免费观看毛片 | 91综合网| 日韩欧美在线观看 | 久久精品国产99国产精品 | 亚洲精品欧美一区二区三区 | 一级毛毛片 | 国产激情一区二区三区 | 国产一区在线看 | 成年人免费看 | 日韩视频中文字幕 | 国产精品视频久久 | 成人免费视频 | 精品免费国产视频 | 欧美福利网站 | 国产成人99 | 欧美八区 | 久久久久久91香蕉国产 | 欧美一级片久久 | 国产高清视频在线观看播放 | 成人自拍视频网站 | 欧美精品在线一区 | 午夜伦4480yy私人影院 | 国产精品黄色 | 高清黄色网址 | 在线观看视频亚洲 | 天天射夜夜操 | 精品国产一区二区三区性色av | 国产成人精品免高潮在线观看 | 91九色porny首页最多播放 | 亚洲精品99 | 国产情侣一区 | 99视频| 亚洲精品视频免费 | 国产不卡一区 |