成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

可直訓ChatGPT類模型!華師大、NUS開源HugNLP框架:一鍵刷榜,全面統(tǒng)一NLP訓練

人工智能 新聞
一站式NLP工具箱,你想要的全都有!

近日,華師大HugAILab團隊研發(fā)了HugNLP框架,這是一個面向研究者和開發(fā)者的全面統(tǒng)一的NLP訓練框架,可支持包括文本分類、文本匹配、問答、信息抽取、文本生成、小樣本學習等多種NLP任務模型搭建和訓練。

圖片

開源地址:https://github.com/HugAILab/HugNLP

論文:https://arxiv.org/abs/2302.14286

值得注意的是,HugNLP還集成了大量最新的Prompt技術,例如Prompt-Tuning、In-Context Learning、Instruction-tuning,未來還將引入Chain-of-thought

HugAILab團隊還研發(fā)了一系列的應用,例如CLUE&GLUE刷榜工具,可支持ChatGPT類模型訓練和部署產品HugChat,以及統(tǒng)一信息抽取產品HugIE等。

HugNLP是一個分層式框架,遵循“高內聚低耦合”的開發(fā)模式,其核心包括模型層(Models)、處理器層(Processors)、評估器層(Evaluators)和應用層(Applications)四部分。

框架圖如下所示:

圖片

  • 模型層:包含模型部分,主要按照任務類型進行劃分;
  • 處理器層:對數(shù)據(jù)進行加載、緩存、分詞等處理,并轉換為模型輸入的Tensor;
  • 評估器層:根據(jù)不同類型的任務(分類或生成),指定不同的評估流程和評價指標;
  • 應用層:對應的應用執(zhí)行腳本。理論上來說,選定一個模型、一個數(shù)據(jù)處理器以及一個評估器,即可對應一個應用。

HugNLP完全基于HuggingFace開發(fā),具有易擴展、易部署能力,同時集成了MLFlow訓練追蹤器,方便使用者及時追蹤實驗進度,并進行實驗分析。

HugNLP框架之所以稱為全面,是因為其集成了大量的NLP任務模型,目前已經(jīng)實現(xiàn)的包括:

  • 預訓練:Masked LM、Causal LM、知識增強預訓練;
  • Instruction-Tuning:支持自回歸生成式、區(qū)間抽取式、NLI等統(tǒng)一范式訓練;
  • 文本分類/匹配:傳統(tǒng)Fine-tuning、Prompt-tuning、In-Context Learning;
  • 序列標注: 支持NER等序列標注任務;
  • 元學習: 基于序列的元學習(SentenceProto)、基于區(qū)間的元學習(SpanProto)、基于token的元學習(TokenProto,NNShot);
  • 問答:支持抽取式問答、多項選擇式問答、開放生成式問答;
  • 文本生成:支持文本摘要、機器翻譯(正在開發(fā)中);
  • 代碼智能:目前集成了代碼克隆檢測(Clone)、代碼缺陷檢測(Defact)等Code任務;

快速部署HugNLP框架,只需要執(zhí)行代碼三行命令即可:

git clone https://github.com/HugAILab/HugNLP.git
cd HugNLP
python3 setup.py install

下面介紹HugNLP的幾個核心能力:

  • Benchmark一鍵刷榜;
  • 預訓練和知識注入;
  • Fine-tuning & Prompt-tuning;
  • Instruction-tuning;
  • In-Context Learning;
  • 半監(jiān)督Self-training;
  • Code代碼智能;

一、Benchmark一鍵刷榜

HugNLP最先開發(fā)了面向一些常用榜單的刷榜工具,例如GLUE、CLUE等。用戶只需要配置相應的數(shù)據(jù)集名稱,即可實現(xiàn)一鍵刷榜。

為了驗證框架的有效性,在22年9月提交了CLUE榜單的刷榜結果,選擇一系列中文小模型(RoBERTa、MacBERT、P-BERT等)并結合了logits集成方法,至今依然維持在第15名位置,曾一度超越了部分企業(yè)。

圖片

例如如果訓練CLUE榜單的AFQMC數(shù)據(jù)集,可編輯文件

applications/benchmark/clue/clue_finetune_dev.sh

修改參數(shù):

--user_defined="data_name=afqmc"

執(zhí)行下列命令即可:

bash applications/benchmark/clue/clue_finetune_dev.sh

同樣的方法還可以訓練一些常用的NLP任務,例如閱讀理解、實體識別、以及GLUE英文數(shù)據(jù)集等。

HugNLP還集成了一系列模型用于刷榜,例如BERT、RoBERTa、DeBERTa、MacBERT、Erlangshen等。

二、預訓練與知識注入

傳統(tǒng)的一些預訓練模型(例如BERT、GPT2等)是在通用語料上訓練的,而對領域事實知識可能不敏感,因此需要顯式的在預訓練階段注入事實知識。

在HugNLP中,主要實現(xiàn)了幾個知識增強預訓練,包括DKPLM和KP-PLM。DKPLM是一種可分解的知識注入方法;KP-PLM則是將結構化知識轉化為自然語言描述的形式進行注入。這些知識注入的方法是可插拔式的,因此無需修改模型結構,很容易用于下游任務的微調。

執(zhí)行下面命令即可進行Masked Language Modeling和Causal Language Modeling的預訓練:

bash applications/pretraining/run_pretrain_mlm.sh
bash applications/pretraining/run_pretrain_casual_lm.sh

三、 Fine-tuning & Prompt-Tuning

基于預訓練語言模型的NLP,通常遵循Pre-training和Fine-tuning范式。HugNLP也包含F(xiàn)ine-tuning技術。

3.1 參數(shù)有效性學習

HugNLP集成了包括Prefix-tuning、Adapter、BitFit、LoRA等參數(shù)有效性訓練方法,可以加速模型的訓練,降低顯存占用量。

圖片

在訓練腳本中,只需要添加一行參數(shù),即可開啟參數(shù)有效性訓練:

--use_freezing

對于參數(shù)有效性方法,HugNLP實現(xiàn)了若干類別的分類模型,如下所示:

CLASSIFICATION_MODEL_CLASSES = {
     "head_prefix_cls": {
         "bert": BertPrefixForSequenceClassification,
         "roberta": RobertaPrefixForSequenceClassification,
     },
     "head_ptuning_cls": {
         "bert": BertPtuningForSequenceClassification,
         "roberta": RobertaPtuningForSequenceClassification,
     },
     "head_adapter_cls": {
         "bert": BertAdapterForSequenceClassification,
         "roberta": RobertaAdapterForSequenceClassification,
     },
     "masked_prompt_cls": {
         "bert": PromptBertForSequenceClassification,
         "roberta": PromptRobertaForSequenceClassification,
     }, 
     "masked_prompt_prefix_cls": {
         "bert": PromptBertPrefixForSequenceClassification,
         "roberta": PromptRobertaPrefixForSequenceClassification,
     },
     "masked_prompt_ptuning_cls": {
         "bert": PromptBertPtuningForSequenceClassification,
         "roberta": PromptRobertaPtuningForSequenceClassification,
     },
     "masked_prompt_adapter_cls": {
         "bert": PromptBertAdapterForSequenceClassification,
         "roberta": PromptRobertaAdapterForSequenceClassification,
     },
 }

只需要指定下面參數(shù)即可,例如選擇adapter進行分類:

--task_type=head_adapter_cls

3.2 對抗訓練:引入對Embedding的擾動,提高模型的魯棒性

HugNLP框架集成了若干種對抗訓練的方法,其中最簡單的對抗方法為FGM算法:

  • 首先計算輸入樣本(通常為word embedding)的損失函數(shù)以及在處的梯度:;
  • 計算在輸入樣本的擾動量:,其中為超參數(shù),默認取1.0;
  • 得到對抗樣本:;
  • 根據(jù)得到的對抗樣本,再次喂入模型中,計算損失,并累積梯度;
  • 恢復原始的word embedding,接著下一個batch。

在訓練時,只需要添加一行參數(shù),即可默認調用FGM算法:

--do_adv

3.3 Prompt-tuning:通過模板來復用預訓練目標

傳統(tǒng)的Fine-tuning在低資源場景下容易出現(xiàn)過擬合問題,因此復用預訓練的目標可以拉近Pre-training和Fine-tuning之間的語義差異。

HugNLP集成了PET、P-tuning、Prefix-tuning等Prompt-Tuning算法,并無縫嵌入在NLP分類任務的模型里。

圖片

在訓練時,只需要指定下面兩個參數(shù),即可以開啟Prompt-tuning模式,例如選擇p-tuning算法:

--task_type=masked_prompt_ptuning_cls
--use_prompt_for_cls

四、Instruction-tuning

在大模型時代,如何將不同類型的NLP任務進行范式統(tǒng)一,是構造通用人工智能的核心要素。HugNLP為此定義了三種統(tǒng)一范式的思想:

  • 萬物皆可生成:將所有NLP任務建模為單向自回歸生成,例如GPT-3、ChatGPT等;
  • 萬物皆可抽取:將所有NLP任務建模為抽取式機器閱讀理解;
  • 萬物皆可推斷:將所有NLP任務建模為自然語言推斷;

基于三種不同的范式統(tǒng)一,HugNLP推出兩個核心產品,分別是:

  • HugChat:基于生成式Instruction的中小型ChatGPT類模型;
  • HugIE:基于抽取式Instruction的統(tǒng)一信息抽取框架;

4.1 HugChat:基于Causal Language Modeling的生成式對話模型

最近ChatGPT火爆全球,為了讓研究者可以訓練自己的ChatGPT,HugNLP框架集成了基于生成式Instruction的訓練產品——HugChat,其支持各種類型的單向生成式模型的訓練,例如GPT-2、GPT-Neo、OPT、GLM、LLaMA等。

在8張V100 32G的條件下,可訓練OPT-13B大模型。HugAILab團隊開源了約200萬條英文、300萬條中文對話數(shù)據(jù),用于訓練模型。例如訓練GPT-2(XL),可直接執(zhí)行腳本:

bash ./application/instruction_prompting/HugChat/supervised_finetuning/run_causal_instruction_gpt2_xl.sh

基于HugNLP,訓練的GPT-2(1.3B)模型,即可實現(xiàn)很簡單的對話任務。只需要執(zhí)行如下命令即可玩轉HugChat:

python3 applications/instruction_prompting/HugChat/hugchat.py

例如可以寫套磁信郵件:

圖片

再例如搜索谷歌地球的相關信息:

圖片

也可以實現(xiàn)編寫簡單的代碼(1.3B的模型具備此能力已經(jīng)很驚嘆了!):

圖片

HugNLP目前正在開發(fā)其他類型的Decoder-only大模型,相關信息和開源內容如下表所示:

圖片

HugChat后期將推出垂直領域的大模型解決方案,同時將與OpenAI API進行融合,推出大模型服務框架。

4.2 HugIE:基于Global Pointer的統(tǒng)一信息抽取框架

信息抽取(Information Extraction)旨在從非結構化的文本中抽取出結構化信息,是構建知識庫的重要步驟之一。通常信息抽取包括兩個核心步驟,分別是命名實體識別(Named Entity Recognition)和關系抽取(Relation Extraction)。

圖片

我們基于HugNLP研發(fā)一款HugIE產品,旨在實現(xiàn)統(tǒng)一信息處理。其主要核心包括如下幾個部分:

  • 將實體識別和關系抽取,統(tǒng)一為新的范式——基于抽取式閱讀理解的方法。HugIE采用Global Pointer模型實現(xiàn)信息抽取;
  • 定義Instruction Prompt,指導模型生成需要抽取的內容;
  • 采用多任務訓練的方法訓練;

HugIE目前已經(jīng)開源了模型:https://huggingface.co/wjn1996/wjn1996-hugnlp-hugie-large-zh 可以基于HugNLP框架使用HugIE抽取模型,如下圖所示:

圖片

五、In-Context Learning

In-Context Learning(ICL) 首次由GPT-3提出,其旨在挑選少量的標注樣本作為提示(Prompt),從而在形式上促使大模型生成目標答案。ICL的優(yōu)勢在于無需對參數(shù)進行更新,即可實現(xiàn)驚艷的效果。

圖片

HugNLP框架集成了ICL,主要涉及到樣本的挑選和預測結果的校準兩個部分:

  • 樣本挑選:默認為從訓練集中隨機挑選樣本,后期將會開發(fā)一系列樣本挑選的算法,例如聚類、K近鄰、余弦相似度等;
  • 預測校準:由于所挑選標注樣本與待預測樣本存在分布差異,需要對預測的概率分布進行校準,這里采用Calibrate Before Use方法,如下圖,可以對預測分布進行校準,提高預測效果。

圖片

目前ICL已經(jīng)集成在HugNLP里,只需要指定下面參數(shù)即可:

--user_defined="data_name=xxx num_incontext_example=4 l=1 use_calibrate=True"
--use_prompt_for_cls

六、半監(jiān)督Self-training

半監(jiān)督旨在同時結合標注數(shù)據(jù)和無標簽數(shù)據(jù)來訓練NLP任務。Self-training是一種簡單但有效的迭代式訓練方法,其通過Teacher模型先獲取偽標簽,對偽標簽進行去噪后,再訓練Student模型。傳統(tǒng)的Self-training會引入大量噪聲,從而降低訓練的效果。

為了提高性能,HugNLP引入成熟的Uncertainty-aware Self-training技術。框架圖如下所示:

圖片

其采用了來自貝葉斯推斷中的MC Dropout技術,即對Teacher模型執(zhí)行 次推理,每次推理開啟Dropout開關,從而得到若干與Teacher模型滿足獨立同分布的模型預測。

基于這些預測結果,可以通過信息熵的變化量得到Teacher模型對無標簽數(shù)據(jù)的不確定性量化指標(即BALD算法),核心公式如下:

圖片

進行多次DC Dropout的代碼實現(xiàn)如下(詳見hugnlp_trainer.py):

y_T = list()
for i in tqdm(range(T)):
     y_pred = []
     for step, inputs in enumerate(unlabeled_dataloader):
         _, logits, __ = self.prediction_step(model, inputs, prediction_loss_only, ignore_keys=ignore_keys)
         y_pred.extend(logits.detach().cpu().numpy().tolist())
     predict_proba = torch.softmax(torch.Tensor(y_pred).to(logits.device), -1)
     y_T.append(predict_proba.detach().cpu().numpy().tolist())
 y_T = np.array(y_T)
#compute mean
 y_mean = np.mean(y_T, axis=0)
BALD算法實現(xiàn)如下:
def get_BALD_acquisition(y_T):
  expected_entropy = - np.mean(np.sum(y_T * np.log(y_T + 1e-10), axis=-1), axis=0)
  expected_p = np.mean(y_T, axis=0)
  entropy_expected_p = - np.sum(expected_p * np.log(expected_p + 1e-10), axis=-1)
  return (entropy_expected_p - expected_entropy)

HugNLP使用半監(jiān)督模式,只需要做兩件事:

(1)執(zhí)行腳本時添加參數(shù):

--use_semi

(2)在指定的數(shù)據(jù)集目錄下,存放unlabeled data文件。

七、其他更豐富的應用

目前HugNLP還開發(fā)了很多應用如下所示:還有更多豐富的應用正在開發(fā)中。HugNLP也歡迎有志之士加入HugAILab參與開源開發(fā)工作。

圖片

圖片

圖片

圖片


責任編輯:張燕妮 來源: 新智元
相關推薦

2023-04-12 16:16:53

微軟開源

2023-04-24 09:32:33

AIGPT

2013-12-09 18:08:30

華為教育信息化

2024-04-08 14:07:51

Animagine開源

2024-07-15 12:27:08

2020-03-04 09:35:55

開源技術 軟件

2015-02-09 15:25:52

換膚

2025-05-14 08:51:00

2023-11-16 12:36:00

AI數(shù)據(jù)

2022-08-02 14:27:01

HDF驅動框架驅動開發(fā)

2024-04-08 13:59:03

大模型Replicate

2019-01-29 10:06:31

開源技術 趨勢

2012-10-18 14:41:31

2011-01-10 17:54:54

360黑屏木馬

2014-04-01 15:31:14

2020-03-17 09:42:00

谷歌開源機器學習

2022-03-01 20:29:02

微軟Windows 11

2021-12-09 15:27:46

模型人工智能深度學習

2025-06-04 09:03:00

2024-07-04 10:13:18

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人免费视频 | 日韩在线免费 | 日日噜噜噜夜夜爽爽狠狠视频, | 亚洲一区二区视频在线播放 | 欧美一区二区三区在线看 | 亚洲一区二区av | 一区不卡在线观看 | 欧美精品一二三 | www国产成人| 欧美性极品xxxx做受 | 日韩一级 | 久久久久久久久久久久一区二区 | 操视频网站 | 91亚洲精品在线观看 | 中文字幕在线网 | 亚洲乱码国产乱码精品精98午夜 | 久久精品视频网站 | 黄视频免费观看 | www.国产视频 | 欧美极品在线 | 亚洲精品99999 | 97精品久久 | 欧美中文字幕一区二区三区亚洲 | 在线免费观看黄色 | 国产视频一区在线 | 成人激情视频在线 | 色婷婷一区二区三区四区 | 久草在线免费资源 | 四虎影院一区二区 | 欧美激情精品久久久久 | 久久国产精品免费 | 精品亚洲一区二区 | www..com18午夜观看 | 亚洲一区亚洲二区 | 国产精品久久久久久久久免费桃花 | 五月天激情电影 | 一级毛片免费视频观看 | 黄色毛片黄色毛片 | 国产高清免费 | 91精品国产乱码久久蜜臀 | 久草视频观看 |