成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從大數(shù)據(jù)到大模型:搜索推薦技術(shù)的前沿探索

人工智能 大數(shù)據(jù)
今天介紹從大數(shù)據(jù)到大模型過程中,我們的大數(shù)據(jù)平臺建設(shè),以及如何在大數(shù)據(jù)場景下應(yīng)用大模型的能力。分享內(nèi)容分為三大塊:一是搜索推薦廣告的技術(shù)架構(gòu);二是在搜索推薦場景中的工程和算法實踐;三是結(jié)合大模型的一些探索及相關(guān)工程產(chǎn)出。

大家好,我是施興(花名叔寶),來自阿里云機器學習平臺 PAI,主要負責產(chǎn)品架構(gòu)。我們團隊主要負責:①搜索推薦,這是我們較為成熟的一個領(lǐng)域;②涉及圖像和視頻多模態(tài)處理,如圖像視頻打標和 Stable Diffusion 文生圖,文生視頻等相關(guān)工作;③在大模型場景下,阿里有通義系列大模型,我們負責通義的底層平臺及相關(guān)訓練推理優(yōu)化工作;④進行 RAG 工程鏈路搭建和大模型評測,包括使用大模型評測大模型。

今天介紹從大數(shù)據(jù)到大模型過程中,我們的大數(shù)據(jù)平臺建設(shè),以及如何在大數(shù)據(jù)場景下應(yīng)用大模型的能力。分享內(nèi)容分為三大塊:一是搜索推薦廣告的技術(shù)架構(gòu);二是在搜索推薦場景中的工程和算法實踐;三是結(jié)合大模型的一些探索及相關(guān)工程產(chǎn)出。

圖片

這是較為成熟的搜索推薦廣告技術(shù)架構(gòu),大廠都在使用,未來更偏向?qū)崟r應(yīng)用。簡單解釋一下架構(gòu):用戶打開淘寶、天貓等 APP 或網(wǎng)站,展示的信息流是推薦系統(tǒng)。用戶操作時,后端系統(tǒng)會發(fā)請求,決定推薦什么內(nèi)容。曝光請求發(fā)送給后端的業(yè)務(wù)引擎和 A/B 系統(tǒng),它們決定哪些數(shù)據(jù)進行召回、粗排、精排等操作,并通過 A/B 引擎進行分流。各大廠的算法工程師一直在提升模型和算法效果,提高點擊率和購買率,這些都是通過 A/B 系統(tǒng)進行分流。實際的召回、排序在后面的引擎端進行。

模型服務(wù)端有很多模型,如大家熟知的 DeepFM、FM 等。模型推理需要數(shù)據(jù),數(shù)據(jù)來源一是特征平臺存儲用戶歷史和最近行為數(shù)據(jù),二是商品特征數(shù)據(jù),如價格、銷量、點擊量等。

用戶在線操作數(shù)據(jù)會被存儲并落入實時計算層,如 Flink 的實時標準會進行窗口函數(shù)計算,生成實時特征和樣本,這些數(shù)據(jù)會沉淀到離線大數(shù)據(jù)處理平臺。離線平臺準備 day 級別樣本和特征,通過 AI 平臺訓練,生成特征(比如 Embedding 特征)和模型,模型用于線上推理服務(wù)。這就是整個流程。

圖片

為了支持復(fù)雜的推薦鏈路,阿里云的技術(shù)架構(gòu)如下:最底層是資源層,包含 CPU、GPU 等各類硬件。通過集群調(diào)度能力,把算力往外輸出,例如 ODPS 飛天集群,阿里云的容器化服務(wù),以及靈駿智能計算集群。靈駿智能計算集群主要面向大模型時代,滿足高性能算力需求。

底層有大量高性能的異構(gòu)計算資源,如眾所周知的 GPU,包括英偉達以及其他廠家提供的 GPU。還有高性能網(wǎng)絡(luò)來支撐,因為大模型訓練需要幾千張卡,這就需要保證卡之間的通信是高帶寬低延時,因此需要高性能 RDMA 網(wǎng)絡(luò)。另外,為了快速讀取樣本,還需要高性能的存儲,否則就會浪費大量 GPU。這就是我們最底層的資源調(diào)度層,再上一層是“大數(shù)據(jù)+ AI”一體化的 PaaS 平臺。

圖片

大數(shù)據(jù)和 AI 的 PaaS 平臺主要分為幾部分:實時和離線一體化的大數(shù)據(jù)平臺,包括 MaxCompute 和 Hologres。MaxCompute 對標開源的 Hadoop,而 Hologre 可以簡單理解為類似 Redis 的實時 OLAP 分析工具。Flink 用于實時計算流,EMR(Elastic MapReduce)則是阿里云上對標的開源大數(shù)據(jù)平臺。

圖片

在大數(shù)據(jù)平臺進行數(shù)據(jù)處理后,通過 AI 平臺提供多種功能。AI 平臺主要包括數(shù)據(jù)標注(PAI-iTAG)、數(shù)據(jù)清洗、特征平臺(FeatureStore)等。有了這些數(shù)據(jù)后,可以進行代碼開發(fā),包括交互式開發(fā)(PAI-DSW)和可視化開發(fā)(PAI-Designer)。開發(fā)好的代碼需要在數(shù)百臺服務(wù)器上進行分布式訓練,因此有模型訓練(PAI-DLC)模塊。為了提高訓練效率,提供數(shù)據(jù)集加速(DataSetAcc)、網(wǎng)絡(luò)通信優(yōu)化、算子優(yōu)化和硬件并行加速等功能。訓練完成后,通過 PAI-EAS 平臺提供模型服務(wù)。這就是我們大數(shù)據(jù)和 AI 的 PaaS 層能力。

圖片

在大數(shù)據(jù)和 AI 平臺上,百煉模型服務(wù)平臺是面向開發(fā)者的大模型開發(fā)平臺。百煉整合了達摩院通義實驗室的多項大模型能力,如圖像處理的通義-萬相、語音識別的通義-聽悟,以及文本處理的通義-千問。此外,還包括了開源社區(qū) ModelScope,供開發(fā)者共享和下載模型。在此之上,平臺支持智能推薦、開放搜索和廣告用戶增長等多個場景,其他還包括傳統(tǒng)電子商務(wù)和智慧醫(yī)療等,形成了一個全面的平臺架構(gòu)體系。

圖片

特征平臺(FeatureStore)是一個結(jié)構(gòu)化大數(shù)據(jù)管理和共享平臺,用于存儲、組織、管理機器學習和 AI 訓練中使用的特征數(shù)據(jù)。傳統(tǒng)上,每個算法工程師處理自己的特征表,沒有一個統(tǒng)一的平臺來共享這些特征。而 FeatureStore 平臺支持數(shù)據(jù)從離線平臺如 Hadoop 的 HDFS 和 MaxCompute 同步到 Hologres、TableStore、FeatureDB 等一些在線平臺,并保證數(shù)據(jù)一致性。

在推薦搜索算法開發(fā)中,經(jīng)常會遇到離線訓練模型效果好,但在線服務(wù)時效果不一致的問題。為此,我們通過云上推薦解決方案型產(chǎn)品 PAI-REC,保證了數(shù)據(jù)的離線和在線一致性。另外,線上特征服務(wù)也保證了穩(wěn)定性,并添加了生產(chǎn)隊列監(jiān)控,如實時監(jiān)控 RT/QPS 變化,以及實時特征的寫入請求隊列是否存在風險和堆積等。

在大模型(多模態(tài))時代,Embedding 特征是必不可少的,如搜索推薦的 user/item 特征,這些特征可以在 FeatureStore 平臺統(tǒng)一管理。有了這些原始特征,需要思考如何高效開發(fā)特征生產(chǎn)工作。因此,我們開發(fā)了一些基礎(chǔ)的特征生產(chǎn)功能,便于特征的二次加工和生成更多的特征。

在性能上,F(xiàn)eatureStore 平臺是為了模型推理時能在線上直接提供特征訪問服務(wù)。但在某些情況下,如搜索推廣場景,整個端到端的請求需要在一兩百毫秒內(nèi)完成,如果跨網(wǎng)絡(luò)獲取特征會導(dǎo)致延時,因此需要在每個環(huán)節(jié)都做到極致。為了加速特征獲取的速度,我們采取了一個優(yōu)化策略,即預(yù)先將數(shù)據(jù)拉到本地,利用本地內(nèi)存換取時間。這也是大家在日常工作中可以參考的一個優(yōu)化點。具體的流程如右邊的圖所示,這里就不詳細展開了。

圖片

FeatureStore 平臺還支持特征血緣功能。在分析特征時,如果算法工程師發(fā)現(xiàn)特征存在問題,需要知道該特征是從哪些源表生成,以及被誰使用。這種血緣關(guān)系在結(jié)構(gòu)化數(shù)據(jù)中極為關(guān)鍵,如果最后的結(jié)果出錯,需要找出問題所在。這需要數(shù)據(jù)工程師或算法工程師投入大量精力去追蹤。而有了血緣圖,我們可以一眼就看出該字段是從哪些表中來,又被用在哪里,以及最后服務(wù)于哪些模型,這就是特征血緣功能的作用。

圖片

在推薦搜索算法中,我們發(fā)現(xiàn)每個客戶會實現(xiàn)一些如 DeepFM 的經(jīng)典算法。然而,這意味著每個客戶需要一套自己的 DeepFM 代碼,這增加了開發(fā)工作量。因此,我們建立了 EasyRec 推薦算法庫,方便開發(fā)人員使用不同的計算資源,如 MaxCompute、Hadoop、Spark 等,甚至可以在本地設(shè)備上運行。EasyRec 支持多種數(shù)據(jù)源,如阿里云的 OSS、MaxCompute 或者 HDFS、Hive 等;還提供了 FeatureGenerator 功能,只要配置文件一樣,能確保離線訓練和在線推理的計算邏輯一致,避免引入誤差。EasyRec 集成了針對實際應(yīng)用場景的有效算法;EasyRec 還支持自動調(diào)參(AutoML-HPO)、特征自動生成(Auto Feature)、特征自動選擇(Feature Selection)、模型蒸餾(Distill)、訓練加速優(yōu)化、離線評估以及 Early Stop 等功能,幫助算法工程師減少開發(fā)工作量。

圖片

隨著大模型和 user/item Embedding 的引入,為了追求更佳的推薦搜索效果,模型特征和網(wǎng)絡(luò)結(jié)構(gòu)越來越復(fù)雜。原本數(shù)百維的特征膨脹到數(shù)千甚至上萬維,其中包含大量交叉特征。對應(yīng)的 Embedding 日益龐大,由數(shù)十 G 擴展到上百 G 甚至 T 級別,以期獲取更強的表征能力。此外,行為序列(Sequence)長度也從原本的 50 個行為擴展到上萬個長度。這樣的復(fù)雜性帶來挑戰(zhàn):追求更好效果的同時,訓練的資源需求和速度要求不斷增加,算力嚴重不足。然而,復(fù)雜的推理過程也導(dǎo)致推理延時增加,而推理是實時請求過程,因此推理超時嚴重是一個急需解決的問題。

圖片

在搜索推薦廣告場景下,我們對訓練和推理進行了兩大方向的優(yōu)化。

在訓練優(yōu)化上,①多級緩存和特征自動淘汰:引入特征的自動準入和淘汰機制,實時或離線訓練中低頻度特征會被淘汰,減少計算資源和顯存的占用。②WorkQueue 模式:將訓練數(shù)據(jù)變成隊列,解決不同服務(wù)器和顯卡處理速度不一致的問題,通過生產(chǎn)者-消費者模式提高計算效率。③特征選擇與知識蒸餾:優(yōu)化特征和模型結(jié)構(gòu)。④通信優(yōu)化:通過單機融合和流水并行減少通信量,提升效率。⑤硬件加速:與阿里云、英特爾、英偉達合作,使用 AVX/AMX 矩陣加速、AllReduce 同步訓練、SOK 合作以及 Embedding 增量更新,進行實時增量模型訓練。

在推理優(yōu)化上,①AVX/AMX 加速:在 CPU 上加速 embedding_lookup 和 string_split。②量化加速:在 GPU 上引入 bf16+int8 量化,減少計算耗時。③AutoPlacement:在 CPU 和 GPU 之間自動高效地分配算子。④SessionGroup:利用 GPU 的 multi stream 特性加速計算。⑤特征緩存:針對推薦場景進行特征緩存優(yōu)化。我們在電商場景的真實客戶中,通過這些優(yōu)化使 QPS 提升到原生 TF-Serving 的四倍左右。

圖片

這是整個推理引擎的數(shù)據(jù)鏈路或架構(gòu)圖。重點在于右側(cè)的推理鏈路,包括 Feature Cache 和 Feature Generator。①Feature Cache:處理離線和實時特征,緩存后進行更新和分級存儲。由于 embedding 達到百 GB 甚至 TB 級別,完全放在內(nèi)存中不可行,因此需要多級緩存。②Feature Generator:在獲取特征后,利用 Feature Generator 進行共享和計算,最后交給模型處理。最下面的圖示,展示了實時特征和離線特征的計算過程,以及增量模型的更新方式。

圖片

接下來介紹我們在與合作伙伴合作中,發(fā)現(xiàn)的搜索推薦領(lǐng)域一些大語言模型帶來的新場景。①電商導(dǎo)購,傳統(tǒng) query 方式無法精準輸出結(jié)果,而大語言模型能助力用戶選品、直播答疑,提供商品售前咨詢和售后服務(wù)。②內(nèi)容推薦,如用戶想購買特定商品或解決某個問題,大語言模型可以給出內(nèi)容推薦。③企業(yè)知識庫,每家企業(yè)都有內(nèi)部文檔庫,新員工可通過 AI 機器人快速學習公司內(nèi)部知識,而不必依賴老員工手把手指導(dǎo)。④教育搜題,大語言模型在教育領(lǐng)域也有應(yīng)用,如搜題生成答案和知識總結(jié)。這些都是客戶在嘗試的一些 LLM 新場景。

圖片

在搜推廣場景的實踐中,經(jīng)典的搜推廣通常由數(shù)據(jù)驅(qū)動。例如,淘寶利用用戶行為和商品數(shù)據(jù)構(gòu)建推薦模型,知乎則使用用戶與內(nèi)容的數(shù)據(jù)進行推薦。這種方法往往是領(lǐng)域內(nèi)的數(shù)據(jù)建模,淘寶無法回答知乎的問題,知乎也無法處理淘寶的商品推薦。這導(dǎo)致信息繭房,推薦內(nèi)容局限于內(nèi)部數(shù)據(jù),無法回答通用問題。

此外,還涉及用戶和商品的冷啟動問題。對于新用戶,沒有任何行為數(shù)據(jù),只能采用經(jīng)典冷啟動方法。同樣,新商品發(fā)布后,由于沒有歷史數(shù)據(jù),很難快速曝光。而且推薦的多樣性不夠,無法跨領(lǐng)域推薦。

反觀通用 LLM,其知識面廣泛,能夠回答各種問題,并且知識表達能力豐富。然而,LLM 缺乏推薦廣告領(lǐng)域的專有數(shù)據(jù),也不具備序列記憶能力,無法有效處理用戶的長期行為記錄。最關(guān)鍵的是,大模型在推薦場景中性能復(fù)雜度很高,推理成本也很大。

圖片

業(yè)界通常有兩種處理方式。左邊這種是將推薦場景與大語言模型(LLM)結(jié)合,利用 LLM 豐富的知識表達,將其 embedding 作為特征進行融合,然后進行在線模型服務(wù)。右邊是直接使用 LLM,將專業(yè)領(lǐng)域數(shù)據(jù)輸入 LLM,讓其進行推薦。這包括直接對大模型進行 fine-tuning,以及 RAG 場景。然而,直接使用 LLM 進行推薦搜索,會帶來較高的訓練推理成本,同時還需要解決數(shù)據(jù)稀疏和冷啟動問題。因此,當前主流方法還是上圖中左邊這種。

圖片

我們在阿里內(nèi)部的淘寶天貓上積累了一些經(jīng)驗,特別是在 Prompt Engineering 方面。第一個實踐是使用 LLM 進行類目搭配推薦,因為 LLM 具有大量的領(lǐng)域外知識。例如,如果你給它一個類目名稱“手機”,它會推薦手機殼、耳機、數(shù)據(jù)線、手機膜等相關(guān)類目。這是 LLM 利用其通用能力的一種體現(xiàn)。通過 Prompt 模板,給 LLM 一個類目名,它就會幫助生成相關(guān)的類目。但這些生成的類目在真正用于線上時,還需要轉(zhuǎn)化為實際的線上類目 ID。這是一個常見的應(yīng)用場景。

圖片

第二個應(yīng)用場景是廣告搜索中的 query 改寫。例如,對于 query“生娃送什么”,直接搜索難以找到具體商品,傳統(tǒng)的 query 改寫會將其改寫為“兒童禮物”。而對于“買一塊可以在草地上鋪的布”,被誤解為“擺盤裝飾”。這就是廣告組買關(guān)鍵詞時遇到的問題,如“滿月禮物”或“野餐墊”。

query 改寫效果不好會導(dǎo)致兩個主要問題。一是改寫后的 query 匹配不到廣告主的關(guān)鍵詞,導(dǎo)致在召回階段就被淘汰。二是無法匹配到高價流量的精確需求,會浪費部分高價流量。比如,廣告主買了“兒童禮物”,但實際搜索的是“滿月禮物”。這些問題背后的主要技術(shù)原因是,傳統(tǒng)的方法對于長搜索詞的語義理解能力有限,且在語義相關(guān)的改寫詞覆蓋上也比較有限。

圖片

我們在利用 LLM 進行 Prompt Engineering 時做了一些嘗試。LLM 具有舉一反三的能力,可以告訴 LLM 一個詞,然后生成幾個相關(guān)的詞。例如,返回“華為手機”5 個電商近義詞,保證搜索詞品牌和類別與“華為手機”一致,LLM 可以生成“華為智能手機”、“華為”、“智能手機”、“華為暢享”、“華為 Mate”。再如,返回“新款高腰微喇褲深藍色”5 個電商近義詞,LLM 輸出“高腰”、“微喇褲”、“深藍色”、“時尚”、“修身”。

一種更好的方法是使用同類目、同方向的相似 query 引導(dǎo)模型輸出。例如,把前兩個 query“華為手機”與“廚房置物架”替換成“七分夏褲”與“女白色褲”,引導(dǎo)LLM 輸出第三個 query,生成的“高腰微喇褲”、“深藍色新款”、“深藍色褲”、“高腰褲”、“微喇褲”更貼近實際需求。這種方法在實際使用中效果更好,能快速應(yīng)用于日常工作。

圖片

最后一個場景是在 RAG 上的探索,結(jié)合企業(yè)客戶使用大模型的實踐。企業(yè)有大量知識庫,這些知識庫文檔需要分片并轉(zhuǎn)化為向量,存儲在向量數(shù)據(jù)庫中。目前的向量數(shù)據(jù)庫有 ElasticSearch、Hologres、Milvus 等。在線請求時,用戶提問通過 embedding 模型轉(zhuǎn)化為向量,然后在向量數(shù)據(jù)庫中檢索,相似度檢索結(jié)果取出 Top-K 后交給 LLM,提供上下文背景,構(gòu)建 Prompt,最終生成回答。

圖片

開源項目 PAI-RAG 將 RAG 鏈路過程中的各個環(huán)節(jié)進行模塊化設(shè)計。整體過程抽象成文檔抽取(Document Extraction)、索引建立(Indexing)、Pre-Retrieval(query 改寫在此階段)、Retrieval、Post-Retrieval、Generation、Evaluation 等。如何排序檢索出來的結(jié)果,如何讓有效的文檔排在前面,或者對所有檢索出的文檔進行總結(jié),以更有效地引導(dǎo) LLM 生成,最后再進行評估,形成一個完整的 RAG 鏈路流程。我們目前的主要工作是使 RAG 工程鏈路變得更方便適配各種場景。比如,如果數(shù)據(jù)不是 PDF 或 Word,而是 PPT,能很方便添加讀取 PPT 文件的功能。對于 Query React,可以輕松地進行二次開發(fā)加工等。

圖片

PAI-RAG 主要支持的數(shù)據(jù)類型包括多模態(tài)數(shù)據(jù)、文檔的結(jié)構(gòu)化表示、embedding 模型的優(yōu)化等。我們集成了 OCR 功能,并考慮了文檔的層級結(jié)構(gòu),支持 PDF 和 Word 等多模態(tài)的文件,包括文件中的截圖。當 Embedding 模型效果不佳時,使用第三方的大模型來豐富知識庫,自動生成文檔擴充此功能。

使用類似的思想來生成評估集,這對于構(gòu)建 RAG 鏈路的企業(yè)來說非常有用。它們通常有很多文檔,但沒有準備很多問題來測試 RAG 的效果。我們使用大模型 RefGPT(不是我們獨創(chuàng))生成評估集。此外,還支持關(guān)鍵字檢索和混合檢索。

我們的工作還包括①評估大語言模型的優(yōu)劣,比如把人工評估的工作交給另一個大模型;②支持各種量化指標,如命中率、準確率等;③在回答的質(zhì)量上,考慮了正確性、語義相似度、忠實性、答案的上下文相關(guān)性等多個維度。

圖片

這是我們在 PAI 模塊化 RAG 中的一個示例圖,并使用 Gradio 編寫的前端,使得配置 RAG 鏈路和上傳數(shù)據(jù)變得非常方便,還可以直接進行交互測試。

責任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2014-08-05 09:37:07

大數(shù)據(jù)

2020-09-24 22:54:46

大數(shù)據(jù)IT技術(shù)

2017-02-22 14:42:13

2015-02-28 13:32:01

搜索大數(shù)據(jù)營銷

2024-09-19 16:11:07

2024-07-22 09:10:04

大語言模型推薦系統(tǒng)人工智能

2025-01-16 10:11:58

2023-04-26 07:56:45

大模型機器學習

2024-09-10 08:42:37

2016-10-13 09:52:53

大數(shù)據(jù)搜索技術(shù)

2015-04-20 14:27:40

大數(shù)據(jù)奇特應(yīng)用

2024-11-25 08:50:24

2017-05-24 11:29:10

蘑菇街搜索推薦

2024-12-23 00:27:40

2025-02-20 09:27:46

2024-11-11 17:16:44

2024-08-07 15:27:50

2018-11-19 12:58:47

大數(shù)據(jù)技術(shù)Java

2021-01-29 10:07:31

大數(shù)據(jù)大數(shù)據(jù)技術(shù)

2013-07-03 16:30:14

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久毛片 | 欧美成人一级视频 | 最近日韩中文字幕 | 在线免费小视频 | 91精品久久久 | 国产欧美精品区一区二区三区 | 最新日韩在线 | 国产成人91视频 | 午夜视频在线视频 | 一区二区在线 | 91资源在线| www.成人免费视频 | 成人福利网| 成人免费视频网站在线看 | 久干网| 午夜精品视频在线观看 | 午夜影院视频在线观看 | 久久久久久亚洲 | 日韩精品免费在线观看 | 精品久久久久久亚洲综合网站 | 国产精品永久免费 | 国产成人精品av | 国产精品国产成人国产三级 | 福利网址 | 亚洲日韩第一页 | 国产精品久久久久久久久久了 | 国产精品精品 | 激情av网站 | 免费超碰 | 精品免费在线 | 日美女逼逼 | 亚洲欧美日韩激情 | 国产成人精品免费视频大全最热 | 涩涩视频在线观看 | 国产精品视频一二三区 | 国产精品日产欧美久久久久 | 美女黄频 | 久草.com | 久久久久亚洲精品 | 欧美日韩黄 | 亚洲精视频 |