成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

賴耶 AI 工廠-基于 NVIDIA AI Enterprise 的優秀落地實踐

人工智能
文中將詳細介紹賴耶 AI 工廠的技術優勢、服務內容,以及如何通過一體化集群解決方案來滿足企業在人工智能領域的需求。

本次分享主要介紹賴耶 AI 工廠提供的多項服務和解決方案,包括萬卡集群管理系統 KAA、企業大模型服務平臺 MANAS 等。賴耶 AI 工廠致力于為客戶提供高性能的人工智能解決方案,涵蓋了從算法創新到產品落地的全鏈條能力。文中將詳細介紹賴耶 AI 工廠的技術優勢、服務內容,以及如何通過一體化集群解決方案來滿足企業在人工智能領域的需求。

一、為什么選擇賴耶 AI 工廠

首先來介紹一下賴耶科技推出的賴耶 AI 工廠。

1. 公司介紹

圖片

北京賴耶信息科技有限公司(以下簡稱“賴耶科技”)是一家致力于為行業提供全棧式大語言模型(LLM)技術服務的公司。我們的使命是通過先進的技術手段,推動各行各業的智能化轉型。

核心團隊成員來自于各大行業頂級公司及研發機構,包括 Nvidia、Qualcomm、VMware、華為、阿里巴巴達摩院及京東等。這些成員在各自領域擁有豐富的專業知識和實踐經驗,共同構建了公司堅實的技術基礎。

賴耶科技在高性能計算集群建設、基礎設施及大模型應用方面積累了豐富的實踐經驗。我們的技術覆蓋面廣泛,涉及人工智能、計算機科學、機器人技術、自動駕駛及自然語言處理等多個領域。從算法創新到產品落地,賴耶科技具備完善的全流程技術能力。公司愿景是建立一個人工智能鑄造廠,為客戶提供“開箱即用”的企業級人工智能解決方案。

2. 企業如何面對開發生產式 AI 帶來的挑戰

圖片

在當前的大模型時代,企業在定制人工智能(AI)解決方案時往往會遇到諸多挑戰。

(1)構建基礎大模型的挑戰

  • 數據需求:大模型的訓練通常需要海量的數據,這不僅是為了避免模型過擬合,更重要的是為了提升模型的泛化能力。然而,許多企業在實際操作中會遇到數據不足或者數據質量不高的問題,這對模型的性能和實際應用造成了直接的影響。
  • 計算資源:訓練大模型需要大量的計算資源,包括高性能的計算硬件和復雜的分布式計算架構的支持。對于大多數企業而言,高效利用龐大的計算資源是一項巨大的挑戰。此外,由于模型的復雜性,訓練過程可能需耗時數天甚至數月,這進一步增加了資源管理的難度。
  • 模型選擇與優化:選擇合適的模型并根據業務需求進行優化是企業在大模型應用中的另一大難題。在選擇和優化模型時,必須綜合考慮帶寬、能耗、存儲等各方面的成本,這些因素將直接影響到模型的效果和企業的總體運營成本。

(2)使用基礎大模型的挑戰

  • 泛化能力:盡管大模型在訓練數據集上表現出色,但在未見過的數據上,模型的表現可能遠不如預期,這種泛化能力的不足是絕大多數大模型面臨的共同問題。
  • 模型解釋性:許多大模型,尤其是深度神經網絡,其決策過程通常是“黑箱”的,難以理解和解釋,這對許多應用場景中的透明度和可信度提出了挑戰。
  • 過擬合風險:大模型由于參數眾多,更容易出現過擬合現象,即在訓練數據上表現優異,而在新數據上表現不佳,這種現象會影響模型的穩定性和可靠性。
  • 倫理與偏見:大模型可能無意中學習并放大訓練數據中的偏見,導致在實際應用中出現不公平或歧視性的結果,這種倫理問題已成為大模型應用中的重要挑戰之一。

賴耶AI 工廠所提供的解決方案可以幫助企業面對上述挑戰。

3. 賴耶 AI 工廠全覽圖

圖片

賴耶 AI 工廠,由底層架構、中間平臺以及應用層共同構成了一個功能強大、靈活高效的 AI 解決方案平臺。

(1)底層架構:萬卡集群管理系統(KAA)

底層架構是賴耶 AI 工廠的基礎,由萬卡集群管理系統(KAA)提供支持。具備以下功能:

  • IO 通信優化:提升輸入輸出數據的傳輸效率,確保系統的高效運行。
  • 虛擬化:實現資源的虛擬分配與管理,提升資源利用率。
  • 云原生管理和編排:支持云端編排與管理,便于對大規模計算資源的動態管理。
  • 高性能多租戶隔離:為不同租戶提供獨立的計算環境,確保安全性和性能。
  • 計量計費:精確的資源使用計量和計費系統,便于企業管理成本。
  • 動態擴展部署:支持計算資源的動態擴展和靈活部署,以滿足不同業務需求。

(2)中間平臺:Manas 平臺

在中層,通過 Manas 平臺為大模型提供全套解決方案,涵蓋了從數據預處理到模型各階段的支持,包括:

  • 數據預處理:確保數據質量,為模型訓練提供堅實基礎。
  • 預訓練:通過大規模數據的初步訓練,獲得基礎模型。
  • 模型對齊:根據特定任務對模型進行對齊調整。
  • 模型微調:根據具體應用場景對模型進行進一步優化和微調。
  • 安全護欄:保障模型使用過程中的安全性和合規性。

(3)應用層:Manas 微服務

上層是通過 Manas 平臺的微服務模塊,針對不同應用場景提供快速系統集成的服務。應用場景包括:智能推理、語音和翻譯、生物醫藥、內容生成、路徑規劃等。

賴耶 AI 工廠在自身的 AI 數據標注、行業模型訓練精調、仿真測試環境等環節使用了大量算力,形成了一系列成熟的解決方案,這些方案可以應用于客戶項目中,加速客戶的 AI 生產效率,幫助企業打造新一代智能化基礎設施,提供高性能的模型訓練和推理平臺,并構建自主可控的 AI 技術體系。

二、萬卡集群管理系統 KAA

接下來從底層開始介紹賴耶 AI 工廠。首先來看一下萬卡集群管理系統 KAA,如何助力企業大模型開發提速。

1. 解決超大規模組網需求

圖片

萬卡集群的管理技術主要涉及模型訓練、數據傳輸以及集群管理等關鍵問題。如下:

  • 高帶寬數據傳輸
    AI 模型訓練和數據傳輸需要高帶寬支持,以實現快速的數據交換,尤其是對于大規模模型參數的傳輸,如果帶寬不足,將導致數據傳輸緩慢,繼而影響模型訓練的效率。
  • 低延時協同工作
    低延時對于保持集群中各節點的高效協同工作至關重要。高延遲會導致同步操作的延遲,影響訓練的實時性。采用高性能的網絡技術(如 InfiniBand,簡稱 IB),可以顯著減少延遲,提高集群的穩定性。
  • 高可靠性與故障恢復
    對于長時間運行的 AI 訓練任務,集群的穩定性尤為重要。任何硬件故障或網絡中斷都可能導致訓練任務中斷,需要重新啟動,會浪費大量時間和資源。因此,集群需要具備高可靠性和故障恢復能力。
  • 自動化部署與維護
    自動化部署可以加快集群的搭建和維護速度,減少人為失誤。自動化部署配置需要進行全面的核查,以確保系統穩定性和性能。
  • 資源隔離與管理
    在共享的 AI 萬卡集群中,不同用戶和業務需要進行隔離,以保證資源分配的公平性和數據安全。我們的資源管理技術能夠限制不同業務對計算和 IO 資源的使用,實現資源隔離和優先級調度。

2. 網絡設計

圖片

構建一個高效的萬卡集群網絡拓撲,需要考慮如下一些因素:

  • 確定算力規模
    在構建 AI 萬卡集群時,首先需要評估所需的計算能力,涉及到模型的復雜度、訓練數據的規模以及期望的訓練時間。
  • 選擇加速卡類型
    加速卡的選擇取決于算法的特定需求和預算情況,不同類型的加速卡在性能和成本上有所不同,選擇時需要綜合考慮。
  • 確認存儲需求
    根據數據集的大小和訓練過程中對 IO 的需求,選擇合適的存儲解決方案,以確保數據的快速讀寫和高吞吐量。
  • 管理和安全需求
    設計集中管理系統,用于集群性能監控、作業調度、資源分配和安全防護,這是保證集群高效運行和數據安全的基礎。
  • 網絡分區規劃
    合理劃分網絡區域,以支持不同業務需求,并保證網絡的可擴展性和安全性。
  • 高速網絡設計
    計算節點之間的高速網絡設計至關重要,從而減少節點之間的通信延遲。
  • 存儲網絡設計
    構建高效的存儲網絡,以確保數據傳輸具備高帶寬和低延時,支持快速的數據訪問。
  • 接入區設計
    設計一個穩定且安全的接入區,允許用戶和應用程序安全地接入集群。
  • 智能中心網絡建設
    建立智能中心網絡,用于優化資源分配,提高作業調度效率,并支持未來擴展。

遵循上述原則,即可構建一個高性能、高效率且可擴展的 AI 萬卡集群,以支持復雜的 AI 訓練和推理任務,有效解決高帶寬和低延時的痛點,為未來的 AI 應用奠定堅實的基礎。

3. 賴耶 AI 集群管理平臺 KAA

圖片

KAA 平臺所提供的關鍵能力包括:

  • 統一管理平臺
    KAA 平臺提供了一個集中化的統一管理界面,用于監控和管理整個 AI 基礎設施,包括硬件資源、網絡配置和軟件應用的全方位管理。
  • 自動化工具與流程
    為簡化 AI 集群的部署工作,KAA 平臺提供了多種自動化工具和流程。這些自動化工具能夠最大限度地減少人為干預,加快部署速度。
  • 智能調度算法
    在優化集群資源使用方面,KAA 平臺采用了智能調度算法來優化資源分配。該算法能夠提高計算資源的利用率,確保關鍵任務能夠得到必要的資源支持,進而提升整體性能。
  • 綜合監控系統
    平臺配備了綜合的監控系統,能夠實時跟蹤集群的性能,快速識別和解決問題,保證系統的穩定性和可靠性。
  • 多租戶與計費計量支持
    KAA 平臺支持多租戶架構,允許多用戶訪問并使用平臺資源。通過隔離的資源和計費系統,為不同的用戶和業務單元提供透明且公平的費用計算。

通過上述功能,KAA 平臺可以顯著提升 AI 項目的工程效率,降低成本,加速 AI 模型的開發和部署,同時確保資源的高效利用和系統的穩定運行。

圖片

KAA 平臺提供了非常簡潔的操作界面,如上圖所示。用戶可以一鍵完成集群的系統安裝、算力分配、算力聚合和算力配置等操作。

  • 自動化系統安裝:管理員通過簡單的一鍵操作即可安裝整個集群的操作系統。這個過程是高度自動化的,減少了手動配置每臺服務器的需求,從而節省了大量時間并減少了人為錯誤。
  • 靈活的算力配置:平臺提供了直觀的算力配置工具,允許管理員根據不同的工作負載需求靈活分配和調整計算資源,包括 CPU、GPU、內存和其他硬件資源配置,都可以在 KAA 平臺上靈活選擇和調整。
  • 高效的算力聚合:KAA 平臺能夠有效地聚合集群中的所有計算資源,形成一個統一的資源池,不同的作業和任務可以共享這些資源,從而提高了資源利用率,并允許更高效的作業調度。
  • 自動化算力分配:平臺的自動算力分配功能,可以根據作業的優先級、資源需求和截止時間等參數,自動將計算資源分配給最合適的作業。

圖片

KAA 平臺是一個全面的集群管理解決方案,提供了從物理基礎設施到單個硬件組件端到端的管理能力。平臺覆蓋整個數據中心集群的各個層面,確保了整個計算環境的完全控制和優化。

  • 機柜層面的基礎設施管理:KAA 平臺能夠管理機柜層面的基礎設施,包括電源分配、冷卻系統和機架組織的優化等。通過這些措施,確保硬件在適宜的物理環境中運行,從而提高整體效率和穩定性。
  • 網絡層面的管理:KAA 平臺擴展到網絡層面,可以管理交換機和網絡連接,確保數據傳輸的高效性和可靠性,包括監控網絡流量、優化網絡配置以及保障網絡的安全性和隔離性。
  • 服務器級別的管理:KAA 平臺提供對每臺服務器的管理,包括操作系統的安裝、更新和維護,以及服務器硬件的狀態監控和故障排除等。
  • 單個硬件組件的管理:KAA 平臺能夠對單個硬件組件進行管理,如 GPU、CPU 和內存。用戶可以細致地監控和調整這些關鍵組件的性能和健康狀態,確保它們運行在最佳狀態下。
  • Nsight 工具的集成:KAA 平臺結合了 Nsight 工具,這是一款強大的硬件分析工具。通過 Nsight,用戶可以觀察每個 GPU 的行為,及時發現和解決潛在的性能瓶頸和故障問題,從而提高整體計算效率和穩定性。

圖片

KAA 集群管理系統利用 BCM 技術實現了集群的全面監控和自動化部署。系統部署在北京賴耶辦公室的 L20 集群中,包含算力節點、管理服務器和網絡交換機等設備。通過 2D 和 3D 視角,可以直觀地觀察設備的健康狀態。

系統提供了靈活的監控和警告功能,允許用戶自定義監控模塊和告警刷新頻率。通過監控頁面,用戶還可以集中管理和監控 CPU、GPU、內存和各節點的詳細狀態,資源利用一目了然。

利用 BCM 的核心功能,KAA 集群管理系統極大地簡化了系統監控工作,使其更加高效、多維。此外,系統還支持對所有節點進行快速的一鍵安裝和恢復操作。通過一鍵裝機功能,實現了輕松的規模化部署和管理,極大提升了操作便捷性和效率。

三、企業大模型服務平臺 MANAS

接下來介紹專門為企業大模型服務的 MANAS 平臺。

1. 企業大模型服務平臺 MANAS 介紹

圖片

大模型開發的基本流程包括以下幾方面:

  • 數據管理:數據管理涉及到數據的收集、清理、標注和存儲。該平臺通過 GPU 加速了訓練數據的處理,例如,一個 10TB 的訓練數據在 GPU 上的處理速度比在較高基準的 CPU 上要快 20 倍。
  • 模型開發:針對模型開發過程中的模型選擇、訓練和測試,MANAS 平臺提供了簡單易用的圖形化用戶界面,以簡化各種 AI 工廠微服務的使用。在界面上可以通過拖拉拽的方式進行操作,還支持編排算法任務和 pipeline 等多種調試運行方式,方便用戶使用 NVIDIA 提供的 NIM 微服務。
  • 模型定制:平臺允許用戶針對不同的數據和計算限制進行模型定制,提供了最先進的調優技術,國內 L20 最佳的優化結果,性價比提高 4 倍,成本減少 80%。
  • 模型評估:對于大模型的評估,平臺提供了快速和全面的基準測試和評估模型質量的方法。
  • 模型部署:平臺支持將訓練好的模型部署到生產環境中,提供實際的應用。在推理優化方面,平臺提供了低延遲、高吞吐量的部署方式,能夠根據需要動態加載和卸載模型,確保單個 GPU 服務器上運行盡可能多的模型。
  • 信息檢索:嵌入和檢索模型,確保召回包含答案或者直接說“我不知道”,解決了大語言模型由于專業領域知識不足引起的幻覺問題。
  • 數據防護:將大模型保護在安全邊界之內,防止惡意提示的影響,從而確保組織能夠放心地部署生產就緒的 AI 大模型,確保正常安全運營。

圖片

賴耶科技還提供了一些解決數據處理痛點的功能,例如基于 DASK 和 MPI 的分布式計算、模糊和精確的重復數據去重,以及文檔級的質量過濾。

2. MANAS 平臺優化示例

圖片

上圖展示的是 MANAS 平臺 Notebook 開發界面。在這里,用戶可以在不修改任何代碼的情況下,加速數據處理流程。例如,對于 10 億萬行的數據,平臺可以提供高達 60 倍的處理速度。

圖片

MANAS 平臺提供了從算法到芯片的全鏈條優化,包括存儲 IO 優化、網絡 IO 優化、在網計算優化、IO 數據統一管理優化、分片和多 GPU 融合優化、系統內核優化、訓練框架優化和模型優化。通過這些優化能夠顯著提升企業大模型的開發進程,幫助企業更好地實現降本增效。

圖片

上圖展示了 MANAS 平臺對預訓練進行優化的一個例子。

Mona 是賴耶的一個高效訓練框架,專為大模型預訓練提供高性能的加速服務。其技術亮點主要包括:

  • 高維張量并行:有效解決了一維張量并行中數據冗余和通信量過大的問題,同時也解決了未配備 NVLink 的計算卡在節點內采用張量并行時的通信瓶頸。
  • 完全數據并行:在數據并行模式下,優化器參數、模型參數和梯度都均勻地分片存儲在并行設備中,解決了分片不完全導致的內存冗余問題。
  • FP8 優化:在加速的同時,帶來了更小的內存消耗。
  • 動態選擇重計算技術:大幅降低了反向梯度計算的算力消耗。Mona 動態選擇內存和算力密度比值高的算子進行激活重計算,并實時根據顯存占用動態調整規模。
  • 穩定訓練機制:在訓練過程中,數據會被實時監控,不穩定的節點會及時下線,確保訓練過程始終在可控范圍內進行。針對預訓練,提供了 O0 到 O3 四個優化選項,用戶可以根據需求進行對比和選擇。在平臺的 pipeline 中,可以直接使用這些優化選項,并在 TensorBoard 中看到加速效果。以 Step Time 為例,可以從 O0 的 6 秒降到 O3 的 2 秒,實現了 3 倍的速度提升。

3. MANAS 平臺的模型定制和優化

圖片

接下來深入了解一下 MANAS 平臺的模型定制化套件,如何針對企業的特定需求定制大語言模型。四個階段的模型定制流程如下:

  • 提示工程(Prompt Engineering):類似于對運動員進行特定訓練,通過少量學習、思維鏈推理和系統化提示,在數據、計算和資源最小化的情況下實現良好的效果。這種方法迅速且經濟,但可能無法完全掌握專業任務的復雜性。
  • 提示學習(Prompt Learning):在提升定制規模時,采用 Prompt tuning 和 P-tuning 等技術,相當于為運動員定制更高級的訓練計劃。盡管需要投入更多資源,但不會犧牲模型已有能力,并可帶來更出色的性能。
  • 參數高效微調(PEFT):包括 Adapter、LoRA 和 IA3 等工具,專門針對特定領域進行訓練,以達到最佳效果。這種方法需要更多時間和專業知識。
  • 全面調整(Fine Tuning):例如 SFT 和 RLHF,這類似于運動員的全面且個性化的訓練方案,允許對模型進行全面調整。這種方法提供了最卓越的結果,并具有靈活的模型參數修改能力,但對數據、計算資源和專業知識的要求也最高。模型在學習新技能時可能會存在丟失已有技能的風險。

無論是在支持快速設置還是深度定制解決方案方面,MANAS 都可以提供全方位的工具,以滿足大模型開發中的特定需求。從提示工程到指令調優,每種方法都權衡了數據、計算投資、準確性以及所需專業知識的復雜度,以提供最優方案。

圖片

上圖展示了一個MANAS 平臺的實例,利用平臺的 Pipeline 工具和 Notebook 進行參數高效微調(PEFT)任務,并最終獲得精調評估結果。

圖片

MANAS 平臺支持市面上絕大多數的大模型框架,包括語言框架,還有圖像的模型框架,在平臺的模型管理模塊中都可以開箱即用。

圖片

MANAS 支持快速集成 NIM API 來開發企業應用。

以上展示了如何通過 Pipeline 方式或 Agent 編排的方式,輕松部署各項 NIM 服務,構建企業級 RAG(Retrieval-Augmented Generation)應用。

四、企業級專家技術服務

1. 賴耶 AI 工廠企業專家技術支持服務介紹

圖片

賴耶工廠提供了企業級的專家技術服務。其中,業務標準支持包括,配置、性能、AI 庫、工具的指導,最新的安全修復程序、維護版本以及合作伙伴之間的協調支持,還有靈活的部署,一個適用于所有平臺的許可證,并提供關于控制升級、維護計劃的長期支持。

增值技術支持包括,專用客戶支持服務和 7*24 小時快速響應服務。

2. 客戶生命周期服務

賴耶科技所提供的支持,涵蓋咨詢服務、部署服務、培訓服務、云運維和安全服務等各個方面。

五、賴耶 AI 工廠一體化集群解決方案

接下來,介紹企業級一體化集群部署方案,從單節點到超級算力集群,幫助企業快速搭建高效計算中心。

1. 企業級一體化集群解決方案

圖片

解決方案包括:

  • 單節點部署:支持小型企業或初創團隊的初期需求。
  • 16 節點中等規模部署:滿足中型企業的大數據處理和模型訓練需求。
  • 250 節點大規模集群:面向需要高效算力的企業,支持復雜任務。
  • 1,000 節點超大規模集群:提供萬卡級算力,適用于大型企業和科研機構。

對上述規模賴耶科技均提供全面的技術支持,幫助企業順利搭建和運行算力集群,充分利用大模型的能力。

以上就是本次分享的內容,歡迎大家持續關注賴耶科技。讓我們一起見證大模型時代的進步。

六、問答環節

Q1:賴耶平臺是否支持異構 AI 芯片池化?是否支持國產芯片?

A1:是的,賴耶平臺支持異構 AI 芯片的混合調度,能進行池化操作,并滿足多模態大模型的不同流水線要求。目前正在規劃國產芯片的適配和優化。

Q2:賴耶科技對于大模型推理方面有哪些優化?

A2:主要在算法和系統兩個層面上,要應對高效推理服務的各種挑戰,包括:

  • 低延遲與快速響應:特別是在實時應用中,需要保持低延遲和快速響應。
  • 內存占用與模型規模:大規模模型需要大量內存,對于內存有限的設備存在較大挑戰。
  • 可擴展性與吞吐量:推理系統需要處理變化的請求負載,保證可擴展性和高吞吐量是關鍵。
  • 硬件兼容與加速:需要有效利用硬件資源,并適配多種硬件設備。
  • 準確性與效率的平衡:在優化性能時,可能需要在一定程度上犧牲準確性。

賴耶平臺的解決方案還進行以下優化:

  • 模型結構優化:減少自注意力計算的復雜度、共享激活和條件計算。
  • 模型壓縮:通過網絡剪枝和模型量化,減少模型的內存和計算負載,提高推理速度。
  • 請求調度優化:動態分配請求,提高資源利用率,并通過搶占式調度根據剩余執行時間調整請求優先級。

賴耶平臺通過一系列優化技術,致力于克服高效推理服務中的各種挑戰,提升整體性能與效率。

Q3:什么是 L20 最佳的優化技術?

A3:L20 最佳優化技術主要指 MANAS 平臺對于 L20 計算的顯著加速。其優化策略包括生成最佳并行方案、激活內存優化、算力圖優化加速和 FP8 支持,提供了一系列提升計算效率的技術手段。

Q4:模型預訓練時 checkpoint 的存儲模式有哪些?

A4:模型預訓練時,存儲 checkpoint 主要有兩種模式:

Flash 層 Checkpoint:在預訓練過程中定期進行 checkpoint 存儲,確保數據的穩固保存。

分布式存儲支持:

提供 checkpoint 的分布式存儲,保證在大規模訓練中高效管理和恢復訓練進度。

Q5:什么是賴耶提供的預訓練加速包及其加速選項?

A5:賴耶的預訓練加速包包含四個加速選項,從 O0 到 O3,分別提供不同層級的優化和性能提升。O1 的加速主要提供了并行的優化,自動選擇并行方案,采用了完全分片并行技術、高維張量并行技術、流水線并行技術、異步流水線并行技術等;O2 比 O1 增加了內存冗余的優化,包括動態選擇性激活值重計算,以及激活值的分片等,有效降低了內存的消耗;O3 的加速性能最優,提供了混合深度訓練、計算圖的優化、算子優化。

Q6:MANAS 和 Colossal-AI 的訓練框架有什么區別?

A6:MANAS 在算力圖優化、FP8 優化以及訓練穩定性方面具有優勢。

Q7:賴耶的模型精調支持哪些主流的大模型?

A7:目前支持的大模型包括:LLama 系列、Baichuan2 系列、Mistral、GPT、Bert 系列等。

Q8:數據集的構建有哪些渠道?數據集的增強手段有哪些?

A8:數據集的構建和增強手段主要有以下幾個方面:

  • 構建渠道方面:

開源數據集:目前最常用的渠道是通過獲取和使用現有的開源數據集。

人工制作數據:人工手工制作的數據集,盡管前期數據量較少,但非常定制化且精準。

  • 增強手段方面:

大模型擴展:利用大模型,從基礎數據集生成更多數據,增強數據集的豐富性。

線上數據收集:在應用上線后,持續收集線上用戶生成的真實數據,并定期將其加入數據集,以不斷擴充和更新數據集。

通過這些渠道和手段,可以構建和增強數據集,以提高模型的訓練效果和實際應用表現。

Q9:加速后準確率有折損嗎?

A9:沒有。

Q10:FP8 的 kernel 是只能在 H100 以上的架構上運行嗎?顯卡的起步款是哪款?

A10:支持 FP8 需要在 Hopper 和 Ada Lovelace 的顯卡架構上運行。目前支持的顯卡起步款是 L20。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2023-08-23 10:25:10

VMwareNVIDIA

2023-10-16 14:41:57

AI人工智能

2021-01-06 15:16:33

AI 技術驅動

2023-11-22 08:00:00

人工智能云計算

2024-06-21 16:46:11

2024-07-30 13:05:21

OpenUSDNVIDIANIM微服務

2023-05-31 14:34:43

2025-01-26 12:34:46

AI運維配置

2022-06-08 10:15:13

AINVIDIA人工智能

2020-10-23 18:44:46

NVIDIA

2024-09-20 10:37:50

2024-01-15 07:36:46

AI系統監控系統

2025-02-28 08:00:00

AI工廠數據中心GPU

2022-11-28 22:01:00

MONAINVIDIA

2022-08-16 14:25:19

??AISummit

2022-09-19 00:08:22

人工智能機器交通管制

2025-04-09 11:59:29

2024-07-11 15:26:23

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品二区 | 日p视频免费看 | 欧美视频中文字幕 | 在线观看深夜视频 | 国产欧美日韩一区二区三区在线 | 日本一区二区在线视频 | av影音资源 | 亚洲国产精品精华素 | 欧美国产亚洲一区二区 | 久久99精品久久久久久国产越南 | 爱爱小视频| 九九99靖品 | 日本电影免费完整观看 | 亚洲天堂久久 | 久久亚洲一区二区三区四区 | 国产成人aⅴ | 欧美一页 | 中文字幕亚洲精品 | 中文字幕日韩一区 | 午夜电影网| 中文字幕 欧美 日韩 | 女同久久另类99精品国产 | 久久久精品久久 | 国产一区欧美 | 亚洲精品乱 | 久久久久久免费精品一区二区三区 | 成人av一区| 久久青视频 | 韩国精品在线观看 | 日韩av在线一区二区三区 | 久久久久久久一区二区三区 | 久草在线高清 | 81精品国产乱码久久久久久 | 欧美日韩一卡二卡 | 新av在线| 精品一区二区三区在线视频 | 最近日韩中文字幕 | 久久久夜 | 国产精品九九 | 一级黄色网页 | 日本公妇乱淫xxxⅹ 国产在线不卡 |