成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

騰訊廣告模型基于"太極"的訓練成本優化實踐

大數據 機器學習
近年來, 隨著大模型在 NLP 領域橫掃各種大數據磅單取得巨大成功之后,大數據加大模型成為了 AI 領域建模的標準范式。搜索、廣告、推薦的建模也不例外,動輒千億參數,上 T 大小的模型成為各大預估場景的標配,大模型能力也已經成為各大科技公司軍備競賽的焦點。

近年來,大數據加大模型成為了 AI 領域建模的標準范式。在廣告場景,大模型由于使用了更多的模型參數,利用更多的訓練數據,模型具備了更強的記憶能力和泛化能力,為廣告效果向上提升打開了更大的空間。但是大模型在訓練過程中所需要的資源也是成倍的增長,存儲以及計算上的壓力對機器學習平臺都是巨大的挑戰。

騰訊太極機器學習平臺持續探索降本增效方案,在廣告離線訓練場景利用混合部署資源大大降低了資源成本,每天為騰訊廣告提供 50W 核心廉價混合部署資源,幫助騰訊廣告離線模型訓練資源成本降低 30%,同時通過一系列優化手段使得混部資源穩定性和正常資源持平。

1、引言

近年來, 隨著大模型在 NLP 領域橫掃各種大數據磅單取得巨大成功之后,大數據加大模型成為了 AI 領域建模的標準范式。搜索、廣告、推薦的建模也不例外,動輒千億參數,上 T 大小的模型成為各大預估場景的標配,大模型能力也已經成為各大科技公司軍備競賽的焦點。

在廣告場景,大模型由于使用了更多的模型參數,利用更多的訓練數據,模型具備了更強的記憶能力和泛化能力,為廣告效果向上提升打開了更大的空間。但是大模型在訓練過程中所需要的資源也是成倍的增長,存儲以及計算上的壓力對機器學習平臺都是巨大的挑戰。同時平臺能夠支撐的試驗數量直接影響算法迭代效率,如何用更小的成本,提供更多的試驗資源,是平臺努力的重點方向。

騰訊太極機器學習平臺持續探索降本增效方案,在廣告離線訓練場景利用混合部署資源大大降低了資源成本,每天為騰訊廣告提供 50W 核心廉價混合部署資源,幫助騰訊廣告離線模型訓練資源成本降低 30%,同時通過一系列優化手段使得混部資源穩定性和正常資源持平。

2、?太極機器學習平臺介紹

太極機器學習平臺,致力于讓用戶更加聚焦業務AI問題解決和應用,一站式的解決算法工程師在 AI 應用過程中特征處理,模型訓練,模型服務等工程問題。目前支持公司內廣告,搜索,游戲,騰訊會議,騰訊云等重點業務。

太極廣告平臺是太極為廣告系統設計的集模型訓練和在線推理的高性能機器學習平臺,平臺具備萬億參數模型的訓練和推理能力。目前該平臺支持騰訊廣告召回,粗排,精排數十個模型訓練和在線推理;同時太極平臺提供一站式特征注冊,樣本補錄,模型訓練,模型評估以及上線試驗的能力,極大提升了開發者效率。

  • 訓練平臺:目前模型訓練支持 CPU 和 GPU 兩種訓練模式,利用自研高效算子,混合精度訓練,3D 并行等技術,訓練速度和業界開源系統相比提升 1 個量級。
  • 推理框架:太極自研的 HCF(Heterogeneous Computing Framework) 異構計算框架,通過硬件層,編譯層和軟件層聯合優化,提供極致性能優化。

3、成本優化具體實現

(1)整體方案介紹 

隨著太極平臺的不斷發展,任務數和任務類型日益增多,資源需求也隨之增多。為了降本增效,太極平臺一方面提升平臺性能,提升訓練速度;另一方面,我們也尋找更加廉價的資源,以滿足不斷增長的資源需求。

峰巒——騰訊公司內部云原生大數據平臺,利用云原生技術,對公司整個大數據架構進行升級。為滿足大數據業務持續增長的資源需求,峰巒引入混部資源,在滿足資源需求的同時,又可極大降低資源成本。峰巒針對不同場景下的混部資源,提供了一系列的解決方案,把不穩定的混部資源變成對業務透明的穩定資源。峰巒混部能力支持3類混部資源:

  • 復用在線空閑資源。在線資源因波峰波谷現象、資源使用預估過高和集群資源碎片等原因,導致集群資源利用率不高,有大量的空閑資源。峰巒挖掘這部分臨時空閑資源,來運行大數據任務,目前已在在線廣告、存儲、社交娛樂和游戲等場景混部。
  • 離線資源彈性借出。大數據平臺有些任務也具有潮汐現象,在白天大數據集群資源使用率低的時候,峰巒支持把部分資源臨時彈性借出,待大數據集群高峰到來之前,再拿回這部分資源。這種場景非常適合解決節假日和大促期間在線任務臨時需要大量資源問題,峰巒當前已支持春節和 618 等重大節假日。
  • 復用算力資源。算力資源是以低優 CVM 方式挖掘云母機的空閑資源,所謂低優 CVM 是指在云母機上啟動具有更低 CPU 優先級的 CVM 虛擬機,該虛擬機可實時被其他的虛擬機搶占資源。峰巒基于底層算力提供的資源信息,在調度、過載保護、算力遷移等方面做了大量的優化,目前已有百萬核的大數據任務在算力資源上穩定運行。

同時,峰巒引入云原生虛擬集群技術,屏蔽底層混部資源來自不同的城市和地域導致的分散性特點。太極平臺直接對接峰巒租戶集群,該租戶集群對應底層多種混部資源,而且租戶集群擁有獨立和完整的集群視角,太極平臺也可無縫對接。

圖片

(2)資源混部方案

在線空閑資源

峰巒自研了 Caelus 全場景在離線混部方案,通過將在線作業和離線作業混部的方式,充分挖掘在線機器的空閑資源,提升在線機器資源利用率,同時降低離線作業的資源成本。

如下圖所示,是 Caelus 的基本架構,各個組件和模塊相互配合,從多方面保證了混部的質量。

首先,Caelus 全方位保證了在線作業的服務質量,這也是混部的重要前提之一,比如:通過快速的干擾檢測與處理機制,主動感知在線服務質量,及時進行處理,并且支持插件化的擴展方式支持業務的特定干擾檢測需求;通過全維度的資源隔離、靈活的資源管理策略等,保證在線服務的高優先級。

其次,Caelus 從多方面保證了離線作業的 SLO,比如:通過混部資源與離線作業畫像,為作業匹配合適的資源,避免資源競爭;優化離線作業驅逐策略,優先排序驅逐,支持優雅退出,策略靈活可控。與大數據離線作業大多是短作業(分鐘級甚至秒級)的特點不同的是,太極作業的運行時間大多較長(小時級甚至天級)。通過長周期的資源預測與作業畫像更好地指導調度,為不同運行時長、不同資源需求的作業找到合適的資源,避免作業運行幾小時甚至幾天后被驅逐,導致作業狀態丟失,浪費資源與時間。當出現需要驅逐離線作業的情況時,會優先通過運行時熱遷移,將作業實例從一個機器遷移到另一個機器,并且保持內存狀態和IP等不變,作業幾乎無影響,極大地提升了作業的 SLO。為了更好地把混部資源利用好,Caelus 還具備其他更多的能力,詳見 Caelus 全場景在離線混部方案??https://zhuanlan.zhihu.com/p/384606554??

圖片

潮汐資源

大數據任務一般是白天任務量相對少,晚上任務量多,峰巒把白天部分空閑的大數據資源出讓給太極平臺,夜間再回收這部分資源,我們把這種資源稱為潮汐資源。潮汐資源的特點是節點上的大數據任務幾乎是完全退出的,但節點上還保留著大數據的存儲服務 HDFS,運行太極作業時不能影響到 HDFS 服務。太極平臺使用潮汐資源時需要和峰巒平臺協商一致,峰巒平臺在固定時間點提前根據歷史數據篩選一批節點,待大數據任務優雅退出后,通知太極平臺有新的節點加入,太極平臺開始在峰巒租戶集群提交更多的任務。借用時間到達前,峰巒通知太極平臺部分節點要回收,太極平臺有序歸還節點。

如下圖所示,潮汐資源的挖掘、管理和使用涉及到多個系統的分工配合:

圖片

  • 大數據資源出讓系統:該系統會根據各個機器上不同的作業運行情況以及集群過去一段時間的運行數據,基于機器學習算法,找到最合適的待下線的機器節點,以滿足特定的資源需求并且對正在運行的作業影響最小,然后禁止調度新的作業到這些節點上,等待節點上正在運行的作業運行完畢,最大限度地降低對大數據作業的影響。
  • Caelus 混部系統:雖然出讓系統騰挪出來的機器資源上沒有運行大數據作業了,但上面還運行著 HDFS 服務,還提供著數據讀寫服務。為了保護 HDFS 服務,引入Caelus混部系統,將 HDFS 作為在線服務,通過 Caelus 一系列的在線服務保證手段(如:通過 HDFS 關鍵指標檢測其是否受到影響)保證 HDFS 服務質量不受影響。
  • 通過虛擬集群的方式使用潮汐資源:這些出讓的機器資源會由峰巒統一管理和調度,并以虛擬集群的方式提供給太極平臺使用,提供 K8S 原生接口,這樣做到了對上層平臺屏蔽底層資源的差異性,保證應用使通過相同的使用方式使用資源。
  • 與應用層斷點續訓打通:潮汐資源在晚上會被回收以用于運行大數據作業,為了減少回收的影響,峰巒和應用層的斷點續訓功能進行了打通,實現資源切換不中斷訓練,切換后不影響業務的繼續運行。

算力資源

算力資源的特點是給業務呈現的是一個獨占的 CVM,對業務方使用來說比較友好。然而,使用算力資源的挑戰在于云母機層面低優 CVM 的 CPU 資源會隨時被在線 CVM 壓制,導致算力資源非常不穩定:

  • 算力機器不穩定:算力機器會因為碎片資源盤整、機房電力不足等原因下線。
  • 算力資源優先級低:為了保證正常 CVM 機器的服務質量不受影響,算力資源上的作業優先級最低,會無條件為高優資源上的作業讓步,導致性能極不穩定。
  • 驅逐頻率高:多種原因(算力資源性能不足、磁盤空間不足、磁盤卡住等)會觸發主動驅逐 pod,增加了 pod 的失敗概率。

為了解決算力資源的不穩定性問題,通過峰巒主控層擴展各項能力,從多方面對算力資源優化,提升算力穩定性:

圖片

① 資源畫像與預測:探索和搜集各種機器性能指標,生成聚合指標,預測低優 CVM 未來一段時間的可用資源情況,這些信息用于調度器調度 pod 和驅逐組件驅逐 pod,滿足 pod 的資源要求。

② 調度優化:為保證太極作業的服務質量,針對作業的需求和資源的特點,在調度策略上有較多的優化,將作業性能提升了 2 倍以上。

  • 同城調度:將 PST 和訓練作業調度到同城同機房,將作業實例之間的網絡延時降到最低,并且同城內的網絡帶寬成本也更低,起到了降低成本的作用。
  • 單機調度優化:結合資源預測的結果以及 CPU stealtime 等指標,為作業選擇性能更佳的 CPU 進行綁核,更好地提升作業性能。
  • 分級調度:對所有管理的資源做自動打標和分級,把 Job Manager 等對容災要求比較高的作業自動調度到相對穩定的資源上。
  • 調優調度參數:根據資源資源畫像和預測數據,調度器為作業優先挑選性能更優和更穩定的節點。另外為了解決步調不一致導致的梯隊過期問題,將同一個作業的實例調度到性能接近的機器

③ 運行時服務質量保證

  • 主動驅逐階段引入運行時熱遷移,做到業務基本無感知:為了應對資源不穩定以及 pod 被驅逐導致應用被 kill 的問題,實現了運行時熱遷移,并且提供了多種熱遷移策略滿足不同場景的需求。目前從線上數據看,使用遷移優先策略時,對于大內存的容器來說,熱遷移的中斷時間是 10 多秒。我們還實現了與內存大小無關的常數中斷時間(恢復優先的策略)。當前每天成功主動遷移 pod 數 2 萬多次,且支持跨集群熱遷移,極大地降低了驅逐的影響。
  • 優化驅逐策略,將驅逐造成的影響降到最低:每臺機器每次驅逐時,優先驅逐后啟動的 pod,避免影響已啟動任;每個任務每次只驅逐一個節點,避免單任務上下游一起被驅逐,造成任務級重啟;pod 被驅逐時,和上層 Flink 框架聯動,主動告知 Flink,快速單點恢復。

④ 自反饋優化:通過資源畫像,周期性的替換掉性能差的機器,并且與底層平臺打通,實現對 CVM 的平滑抽離,讓峰巒有機會以對業務無影響的方式逐個遷移應用實例,降低對實例的影響。

⑤ 提升 Flink 層的容災能力,支持單點重啟和層級式調度

TM(Task Manager)單點重啟能力避免 Task 失敗導致整個 DAG 失敗,可以更好適配算力搶占式特性;分層調度避免 gang scheduling 造成過長的作業等待,并且可以避免 TM Pod 過度申請的浪費。

(3)應用層優化方案

業務容錯

離線訓練任務要使用廉價資源一個大前提就是不能影響資源上原有任務的正常運行,所以混部資源有以下幾個關鍵挑戰:

  • 混部資源大多是臨時資源,會頻繁下線;
  • 混部資源會無條件為高優資源讓步,導致機器性能極不穩定;
  • 混部資源的自動驅逐機制也極大加大了節點和 pod 的失敗概率。

圖片

為了保證在混部資源上任務可以穩定運行,平臺使用三級容錯策略,具體解決方案如下:

  • 熱遷移技術:在 Task Manager 將要發生驅逐前,提前感知,把相應的 Task Manager 遷移到另外一個 pod 上;同時利用內存壓縮,流式并發,跨集群熱遷移等能力持續優化熱遷移成功率。
  • Task Manager 重啟:當任務當中一個 Task Manager 由于異常或者驅逐等原因導致運行失敗之后,整個任務不會直接失敗退出,而是先保存該 Task Manager 的狀態,然后重新啟動該 Task Manager,從而降低整個任務失敗的概率。
  • 任務 Full Recovery: 當一個任務的由于 Flink 狀態異常,處于無法恢復狀態時,會觸發 Job Manager 的重啟,為了保證 Job Manager 的穩定性,平臺把 Job Manager 部署在穩定性較好的獨立資源上,保證任務狀態正常。
  • 斷點續訓:如果前面幾個容錯策略都失敗了,平臺會基于歷史的某一個 ckpt 重新啟動任務。

通過業務層的容錯,運行在混部資源上的任務穩定性從最初的不到 90% 提升到最終的 99.5%,基本和普通獨占資源上任務穩定性持平。

任務潮汐調度

針對潮汐資源要求離線訓練任務只能白天使用,晚上需要提供給在線業務使用,所以太極平臺需要在白天時根據資源到位情況,自動啟動訓練任務;在晚上對任務做冷備,同時停止對應的訓練任務。同時通過任務管理隊列來管理每個任務調度的優先級,對于晚上新啟動的任務會自動進入排隊狀態,等第二天早上再啟動新的任務。

圖片

核心挑戰:

  • 潮汐現象:資源白天的時候可以提供給離線任務使用,晚上的時候需要回收。
  • 資源動態變化:在白天時,資源也是不穩定的,資源會隨時發生變化,一般是早上的時候資源比較少,然后資源逐漸增加,到晚上的時候資源到達高峰值。

解決方案:

  • 資源感知的調度策略:早上在資源逐步增加的過程中,潮汐調度服務需要感知資源變化,同時跟進資源情況來啟動待繼續訓練的任務。
  • 模型自動備份能力:在晚上資源回收前,需要把當前平臺上運行的所有任務逐步做備份,這對于平臺的存儲和帶寬壓力非常大,因為平臺上有幾百個任務,每個任務冷備大小從幾百 G 到數 T 大小不等,如果在同一時間做冷備的話需要在短時間傳輸和存儲數百 T的數據,對于存儲和網絡 都是巨大的挑戰;所以我們需要有一套合理的調度策略,逐步做模型的存儲。
  • 智能資源調度能力:潮汐調度和傳統訓練相比,每個任務在晚上資源回收時的模型備份和每天早上任務新啟動的時候的開銷是額外開銷,為了降低這部分額外開銷,我們調度時需要評估哪些任務在當天就能跑完,哪些任務需要跑多天,對于當天能跑完的任務,我們優先給它分配更多資源,保證當天任務運行完成。

通過這些優化能夠保證任務能穩定在潮汐資源上運行,對于業務層基本無感知。同時任務的運行速度不會受太大影響,由于任務啟停調度帶來的額外開銷控制在 10% 以內。

4、在線效果和未來展望

太極在離線混布優化方案在騰訊廣告場景落地,每天為騰訊廣告離線模型調研訓練提供30W 核全天候的混合部署資源,20W 核潮汐資源,支持廣告召回,粗排,精排多場景模型訓練。在資源成本上,相同計算量任務上,混合部署資源成本是普通資源的 70%。經過優化系統穩定性和物理集群任務成功率基本持平。

后續一方面我們會繼續加大混合算力資源的使用,尤其會加大混合算力資源的應用;另一方面,公司在線業務在 GPU 化,所以在混合資源應用上,除了傳統的 CPU 資源之外,也會嘗試對在線 GPU 資源在離線訓練時使用。

今天的分享就到這里,謝謝大家。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2023-01-05 21:25:06

毫末

2024-09-26 00:11:01

2024-07-08 13:11:40

2023-10-18 12:50:12

數據模型

2023-07-12 10:04:20

模型訓練

2023-07-11 15:30:08

GPT-4架構

2019-04-23 11:55:26

FinOps成本優化云計算

2024-11-11 08:50:24

2025-06-19 10:09:55

2025-03-13 12:39:22

2023-11-23 18:19:15

騰訊騰訊混元Angel

2020-12-14 09:00:00

云計算公有云工具

2025-06-24 03:00:00

2024-04-16 12:15:42

AI模型

2025-03-12 12:10:13

2023-06-15 09:58:48

2023-02-16 08:00:00

數據流客戶端開發數據集

2022-06-26 23:13:13

云計算IT云成本優化

2022-04-08 14:40:59

框架訓練模型

2021-03-25 15:19:33

深度學習Pytorch技巧
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕高清免费日韩视频在线 | 国产精品久久久久久久久久久新郎 | 亚州春色| 日本精品久久 | 欧美激情综合 | 91视频网址 | 日本大香伊一区二区三区 | 国产精品久久九九 | 久久福利电影 | 久久久影院| 成人欧美一区二区三区在线观看 | 亚洲成人中文字幕 | 艹逼网| 国产探花在线精品一区二区 | 亚洲36d大奶网 | 精品国产乱码久久久久久果冻传媒 | av在线免费观看网站 | 亚洲精选一区二区 | 国产成人99久久亚洲综合精品 | 国产成人久久精品 | 网站国产 | 亚洲黄色一区二区三区 | 成年人在线视频 | 国产成人精品免费视频大全最热 | 欧美午夜一区二区三区免费大片 | 成人av播放 | 春色av| 中文字幕 视频一区 | 国产色视频网站 | 在线观看亚洲一区二区 | 中文字幕亚洲欧美 | 中文字幕在线二区 | 麻豆精品国产91久久久久久 | 亚洲一区二区三区四区在线观看 | а√中文在线8 | 国产在线第一页 | 午夜视频在线播放 | 射欧美 | 久久精品视频网站 | 国产精品观看 | 99久久免费精品国产免费高清 |