成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

訓(xùn)練大模型缺少高質(zhì)量數(shù)據(jù)?我們找到了一種新的解決方案

人工智能 新聞
獲取高質(zhì)量訓(xùn)練數(shù)據(jù)的主要難點在于企業(yè)往往不愿意、不能或者不敢分享他們的數(shù)據(jù)。作為一種隱私計算的新范式,「可控計算」讓數(shù)據(jù)提供方能夠控制自己的數(shù)據(jù)如何被使用,保障數(shù)據(jù)提供方的權(quán)益,有望推動大模型產(chǎn)業(yè)和更廣泛的數(shù)據(jù)要素市場發(fā)展。

數(shù)據(jù),作為決定機器學(xué)習(xí)模型性能的三大要素之一,正在成為制約大模型發(fā)展的瓶頸。正所謂「Garbage in, garbage out」[1],無論你的算法多么優(yōu)秀,你的計算資源多么強大,模型的質(zhì)量都直接取決于你用來訓(xùn)練模型的數(shù)據(jù)。

隨著各種開源大模型的涌現(xiàn),數(shù)據(jù)的重要性進一步凸顯,尤其是高質(zhì)量的行業(yè)數(shù)據(jù)。彭博社基于開源的 GPT-3 框架打造金融大模型 BloombergGPT,證明了基于開源的大模型框架開發(fā)垂直行業(yè)大模型的可行性。事實上,面向垂直行業(yè)構(gòu)建或定制閉源的輕量化大模型,也正是國內(nèi)多數(shù)大模型創(chuàng)業(yè)公司所選擇的路徑。

在這個賽道,高質(zhì)量的垂直行業(yè)數(shù)據(jù)、基于專業(yè)知識的微調(diào)和對齊能力至關(guān)重要——BloombergGPT 基于彭博社積累了 40 多年的金融文檔構(gòu)建,訓(xùn)練語料庫的 token 超過 7000 億[2]。

然而,獲取高質(zhì)量的數(shù)據(jù)并不容易。有研究指出,按照當(dāng)前大模型吞噬數(shù)據(jù)的速率,高質(zhì)量的公域語言數(shù)據(jù),例如書籍、新聞報道、科學(xué)論文、維基百科等,將在 2026 年左右耗盡[3]。

公開可用的中文高質(zhì)量數(shù)據(jù)資源原本就相對較少,而國內(nèi)的專業(yè)數(shù)據(jù)服務(wù)還在起步階段,進行數(shù)據(jù)收集、清洗、標(biāo)注和驗證需要投入大量的人力和物力。據(jù)悉,國內(nèi)某高校大模型團隊,收集、清洗 3TB 高質(zhì)量中文數(shù)據(jù)的成本,包括下載數(shù)據(jù)帶寬、數(shù)據(jù)存儲資源(未清洗的原始數(shù)據(jù)約為 100TB)、清洗數(shù)據(jù)的 CPU 資源成本總計約數(shù)十萬元。

隨著大模型發(fā)展走向深度,要訓(xùn)練出滿足產(chǎn)業(yè)需求、精度極高的垂直行業(yè)模型,一定需要更多的行業(yè)專業(yè)知識,甚至商業(yè)機密類型的私域數(shù)據(jù)。但是,出于隱私保護的要求,以及確權(quán)、收益劃分存在的困難,企業(yè)往往不愿意、不能或者不敢分享他們的數(shù)據(jù)。

有沒有一種方案,既可以享受數(shù)據(jù)開放和共享的好處,又能保護數(shù)據(jù)的安全和隱私呢?

隱私計算能否打破困境?

隱私計算(Privacy-preserving Computation)能夠在保證數(shù)據(jù)提供方不泄露原始數(shù)據(jù)的前提下,對數(shù)據(jù)進行分析、處理和使用,被視為促進數(shù)據(jù)要素流通和交易的關(guān)鍵技術(shù)[4],因此,將隱私計算用于保護大模型的數(shù)據(jù)安全,似乎成了一種自然的選擇。

圖片

隱私計算不是一種技術(shù),而是一個技術(shù)體系。根據(jù)具體的實現(xiàn),隱私計算主要分為以多方安全計算為代表的密碼學(xué)路徑、以可信執(zhí)行環(huán)境為代表的機密計算路徑,以及以聯(lián)邦學(xué)習(xí)為代表的人工智能路徑[5]。

不過,在實際應(yīng)用中,隱私計算存在一些局限。例如,引入隱私計算 SDK 通常會對原有業(yè)務(wù)系統(tǒng)進行代碼層面的修改[6]。如果是基于密碼學(xué)的實現(xiàn),加解密操作會讓計算量呈幾何級增長,同時密文計算需要更大的計算和存儲資源以及通信負(fù)載[7]。

此外,涉及超大規(guī)模數(shù)據(jù)量的大模型訓(xùn)練場景,現(xiàn)有的隱私計算方案還會遭遇一些新的問題。

基于聯(lián)邦學(xué)習(xí)的方案

讓我們首先看看聯(lián)邦學(xué)習(xí)的困難。聯(lián)邦學(xué)習(xí)的核心思想是「數(shù)據(jù)不動模型動」,這種去中心化的方式保證了敏感數(shù)據(jù)待在本地,無需暴露或傳輸。每個設(shè)備或服務(wù)器通過向中心服務(wù)器發(fā)送模型的更新,參與到訓(xùn)練過程中,而中心服務(wù)器則聚合并融合這些更新,從而改進全局模型[8]。

然而,集中訓(xùn)練大模型已經(jīng)是一件非常困難的事情,分布式的訓(xùn)練方法大大增加了系統(tǒng)的復(fù)雜性。我們還需要考慮模型在各個終端上訓(xùn)練時數(shù)據(jù)的異質(zhì)性,以及如何安全地聚合所有設(shè)備的學(xué)習(xí)權(quán)重——對于大模型的訓(xùn)練,模型權(quán)重本身就是一項重要資產(chǎn)。此外,還必須防止攻擊者從單個模型更新中推斷出私有數(shù)據(jù),而相應(yīng)的防御措施會進一步增加訓(xùn)練開銷。

基于密碼學(xué)的方案

同態(tài)加密能夠直接對加密數(shù)據(jù)進行計算,讓數(shù)據(jù)「可用不可見」[9]。在處理或分析敏感數(shù)據(jù)并保證其機密性的場景中,同態(tài)加密是保護隱私的強大工具。這種技術(shù)不僅可以應(yīng)用于大模型的訓(xùn)練,也能在保護用戶輸入(prompt)的機密性的同時進行推理。

然而,相比于使用未加密數(shù)據(jù)進行大模型的訓(xùn)練和推理,使用加密數(shù)據(jù)要困難得多。同時,處理加密數(shù)據(jù)需要更多的計算,會指數(shù)級地增加處理時間,并進一步增加訓(xùn)練大模型已經(jīng)非常高的算力需求。

基于可信執(zhí)行環(huán)境的方案

再來說說基于可信執(zhí)行環(huán)境(TEE)的解決方案。大多 TEE 解決方案或產(chǎn)品都需要額外采購專門的設(shè)備,如多方安全計算節(jié)點、可信執(zhí)行環(huán)境設(shè)備、密碼加速卡等,無法適配已有的計算、存儲資源,使得這種解決方案對許多中小企業(yè)來說并不現(xiàn)實。此外,目前 TEE 方案主要是基于 CPU 進行的,而大模型訓(xùn)練嚴(yán)重依靠 GPU。現(xiàn)階段支持隱私計算的 GPU 方案還不成熟,反而造成了額外的風(fēng)險[10]。

總的來說,在多方協(xié)作計算的場景下,很多時候要求原始數(shù)據(jù)物理意義上的「不可見」并不合理。此外,由于加密過程給數(shù)據(jù)添加了噪聲,在加密數(shù)據(jù)上進行訓(xùn)練或推理,也會造成模型性能損失和降低模型準(zhǔn)確性。現(xiàn)有的隱私計算方案無論是性能和還是在 GPU 支持方面,都無法很好地適用于大模型訓(xùn)練場景,也阻礙了擁有高質(zhì)量數(shù)據(jù)資源的企業(yè)和機構(gòu)開放和共享信息,參與到大模型產(chǎn)業(yè)中來。

可控計算,一種隱私計算的新范式

「當(dāng)我們把大模型產(chǎn)業(yè)看做從數(shù)據(jù)到應(yīng)用的一個鏈條,會發(fā)現(xiàn)這個鏈條實際上是各種數(shù)據(jù)(包括原始數(shù)據(jù),也包括以參數(shù)形式存在于模型中的數(shù)據(jù))在不同主體間的流通鏈,而這個產(chǎn)業(yè)的商業(yè)模式則應(yīng)該構(gòu)建于這些流通的數(shù)據(jù)(或模型)是可以被交易的資產(chǎn)基礎(chǔ)之上。」熠智科技的 CEO 湯載陽博士表示。

「數(shù)據(jù)要素的流通涉及多個主體,而產(chǎn)業(yè)鏈的源頭一定是數(shù)據(jù)提供方。也就是說,所有的業(yè)務(wù)其實都是由數(shù)據(jù)提供方來發(fā)起,只有數(shù)據(jù)提供方授權(quán),交易才可能進行,所以應(yīng)該優(yōu)先保證數(shù)據(jù)提供方的權(quán)益。」

目前市場上主流的隱私保護解決方案,如多方安全計算、可信執(zhí)行環(huán)境和聯(lián)邦學(xué)習(xí),都聚焦數(shù)據(jù)使用方如何處理數(shù)據(jù),湯載陽認(rèn)為,我們需要從數(shù)據(jù)提供者的角度出發(fā)去看問題。

熠智科技成立于 2019 年,定位于面向數(shù)據(jù)合作的隱私保護解決方案提供商。2021 年,公司入選了由中國信息通信研究院發(fā)起的「數(shù)據(jù)安全推進計劃」(Data Security Initiative,DSI)首批參與單位,并被 DSI 認(rèn)證為 9 家代表性隱私計算企業(yè)廠商之一。2022 年,熠智科技正式成為國內(nèi)首個國際化自主可控隱私計算開源社區(qū)——開放群島(Open Islands)開源社區(qū)成員單位,共同推動數(shù)據(jù)要素流通關(guān)鍵基礎(chǔ)設(shè)施建設(shè)。

針對目前大模型訓(xùn)練的數(shù)據(jù)困境,以及更廣泛的數(shù)據(jù)要素流通問題,熠智科技從實踐出發(fā),提出了一種新的隱私計算解決方案——可控計算。

「可控計算的核心關(guān)注點是以保護隱私的方式來發(fā)現(xiàn)和共享信息。我們解決的問題是在訓(xùn)練的過程中保證所用數(shù)據(jù)的安全,以及訓(xùn)練出來的模型不被惡意竊取。」湯載陽說。

具體說,可控計算要求數(shù)據(jù)使用方在數(shù)據(jù)提供方定義的安全域中對數(shù)據(jù)進行加工和處理。

安全域在數(shù)據(jù)流通場景中的示例

安全域是一個邏輯上的概念,指由相應(yīng)的密鑰和加密算法保護的存儲、計算單元。安全域由數(shù)據(jù)提供方定義和約束,但相應(yīng)的存儲、計算資源并不由數(shù)據(jù)提供方提供。物理上,安全域在數(shù)據(jù)使用方,但是由數(shù)據(jù)提供方所控制。除了原始數(shù)據(jù),加工、處理后的中間數(shù)據(jù)和結(jié)果數(shù)據(jù)也在相同的安全域中。

在安全域中,數(shù)據(jù)可以是密文(不可見),也可以是明文(可見),在明文情況下,由于數(shù)據(jù)可見的范圍是受控的,因此確保了數(shù)據(jù)在使用過程中的安全。

復(fù)雜的密文計算導(dǎo)致的性能下降是限制隱私計算應(yīng)用范圍的一個重要因素,通過強調(diào)數(shù)據(jù)的可控,而不是一味追求不可見,可控計算解決了傳統(tǒng)隱私計算方案對原有業(yè)務(wù)的侵入性,因此非常適合需要處理超大規(guī)模數(shù)據(jù)的大模型訓(xùn)練場景。

企業(yè)可以選擇將自己的數(shù)據(jù)存放在多個不同的安全域中,并給這些安全域設(shè)定不同的安全等級、使用權(quán)限或白名單。對于分布式應(yīng)用,也可以在多個計算機節(jié)點乃至芯片上設(shè)定安全域。

「安全域是可以串起來的,在數(shù)據(jù)流通的各個環(huán)節(jié),數(shù)據(jù)提供方可以定義多個不同的安全域,讓自己的數(shù)據(jù)只在這些安全域之間互相流轉(zhuǎn),最終這些串聯(lián)的安全域就構(gòu)建起了一個數(shù)據(jù)的網(wǎng)絡(luò)。在這個網(wǎng)絡(luò)上面,數(shù)據(jù)是可控的,對數(shù)據(jù)的流轉(zhuǎn)、分析、處理等也可度量、可監(jiān)管,數(shù)據(jù)的流通也可以做相應(yīng)的變現(xiàn)。」湯載陽解釋說。

基于可控計算的思想,熠智科技推出了「DataVault」。

DataVault 原理:結(jié)合 Linux 度量啟動和 Linux 全盤加密技術(shù),實現(xiàn)數(shù)據(jù)在安全域內(nèi)的可控、防護。

DataVault 將可信平臺模塊 TPM(Trusted Platform Module,其核心是提供基于硬件的安全相關(guān)功能)做為信任根,保護了系統(tǒng)的完整性;使用 Linux 安全模塊 LSM( Linux Security Modules,Linux 內(nèi)核中用于支持各種計算機安全模型的框架,其與任何單獨的安全實現(xiàn)無關(guān))技術(shù),使安全域內(nèi)的數(shù)據(jù)只在可控范圍內(nèi)使用。

在此基礎(chǔ)上,DataVault 使用 Linux 提供的全盤加密技術(shù)將數(shù)據(jù)置于安全域內(nèi),熠智科技自研了完整的密鑰分發(fā)以及簽名授權(quán)等密碼協(xié)議,并做了大量工程上的優(yōu)化,進一步保證了數(shù)據(jù)的可控。

DataVault 支持多種專用加速卡,包括不同的 CPU、GPU、FPGA 等硬件,也支持多種數(shù)據(jù)處理框架、模型訓(xùn)練框架,且二進制兼容。

更重要的是,它有著遠(yuǎn)低于其他隱私計算解決方案的性能損失,在大部分應(yīng)用中,相比原生系統(tǒng)(即不用任何隱私計算技術(shù)),整體性能損失不超過 5%

部署 DataVault 后,基于 LLaMA-65B 的評估(Evaluation)和提示評估(Prompt Evaluation)環(huán)節(jié)中,性能損失小于 1‰。

DataVault 保護數(shù)據(jù)流通和模型資產(chǎn)案例

現(xiàn)在,熠智科技已與國家超級計算中心達(dá)成合作,在超算平臺上部署面向 AI 應(yīng)用的隱私保護高性能計算平臺。基于 DataVault,算力使用方可以在計算平臺上設(shè)定安全域,確保數(shù)據(jù)從存儲節(jié)點轉(zhuǎn)移到計算節(jié)點的全過程都只能在安全域之間移動,不離開設(shè)定的范圍。

除了確保數(shù)據(jù)在模型訓(xùn)練中的可控,基于 DataVault 解決方案,訓(xùn)練好的大模型本身作為一種數(shù)據(jù)資產(chǎn),也可以得到保護并被安全地交易。

目前,對于那些希望在本地部署大模型的企業(yè),例如金融、醫(yī)療等高敏感數(shù)據(jù)機構(gòu),苦于缺少在本地運行大模型的基礎(chǔ)設(shè)施,包括訓(xùn)練大模型的高成本高性能硬件,以及部署大模型后續(xù)的運維經(jīng)驗。而對于構(gòu)建行業(yè)大模型的企業(yè),他們則擔(dān)心如果直接將模型交付給客戶,模型本身和模型參數(shù)背后積累的行業(yè)數(shù)據(jù)和專業(yè)知識存在被二次販賣的可能。

作為對垂直行業(yè)大模型落地的一種探索,熠智科技也正與粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院(IDEA 研究院)合作,雙方聯(lián)合打造了具有模型安全保護功能的大模型一體機。這種一體機內(nèi)置了若干垂直行業(yè)大模型,配備大模型訓(xùn)推所需的基礎(chǔ)算力資源,可以滿足客戶開箱即用的需求,其中熠智的可控計算組件 DataVault 可以確保這些內(nèi)置模型僅在獲得授權(quán)的情況下被使用,模型以及所有中間數(shù)據(jù)無法被外部環(huán)境竊取。

作為一種新的隱私計算范式,熠智科技希望可控計算能為大模型行業(yè)和數(shù)據(jù)要素流通帶來改變。

「DataVault 只是一個輕量級的實現(xiàn)方案。隨著技術(shù)和需求的變化,我們會持續(xù)更新,在數(shù)據(jù)要素流通市場有更多的嘗試和貢獻,也歡迎更多行業(yè)伙伴加入進來,共建可控計算社區(qū)。」湯載陽說。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-01-12 13:51:00

數(shù)據(jù)訓(xùn)練

2020-06-17 09:59:17

人工智能

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2010-07-06 11:52:59

數(shù)據(jù)庫RationalJazz

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2017-06-19 07:58:40

2020-12-01 13:56:56

人工智能AI數(shù)據(jù)

2010-04-02 10:48:39

CentOS系統(tǒng)

2017-07-14 09:54:47

代碼函數(shù)程序

2024-07-22 13:10:12

2025-06-05 00:00:00

向量數(shù)據(jù)庫線程安全Redis

2025-04-24 11:09:13

2022-11-09 13:43:59

中小企業(yè)

2024-01-18 15:38:17

語言模型大型語言模型

2021-11-15 10:57:41

數(shù)據(jù)中心數(shù)字化轉(zhuǎn)型云計算

2021-01-04 08:04:51

JS 變量JavaScript

2025-04-15 09:22:00

AI訓(xùn)練模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久精品视频播放 | 九九久久久| 毛片视频网址 | 看av在线 | 欧美在线网站 | 丁香六月激情 | 国产高清视频在线观看播放 | 午夜99| 国产在线永久免费 | 日韩欧美天堂 | 国产精品mv在线观看 | 午夜在线视频 | 中文字幕在线一区二区三区 | 欧美一级高清片 | 一区二区三区国产视频 | 欧美成人免费在线视频 | 久久伦理中文字幕 | 国产精品99久久久久久久久久久久 | 人人草人人干 | 色综合视频 | 国产99久久| 99久久久国产精品 | 免费一级片| 成人免费黄色片 | 亚洲综合一区二区三区 | 色婷婷综合久久久中文字幕 | 午夜精品一区二区三区三上悠亚 | 一区二区国产精品 | 在线亚洲一区二区 | 羞羞视频网站在线观看 | 中日av| 久久精品综合网 | 欧美精品一区二区三区在线 | 精品国产一区二区三区观看不卡 | 国产91在线观看 | 国产亚洲精品精品国产亚洲综合 | 欧美福利 | 亚洲高清视频一区二区 | 欧美9999| 二区久久| 青青草华人在线视频 |