大模型時代信息抽取任務該何去何從？復旦發布InstructUIE提升大模型信息抽取能力

arnoldzhw

發布于 2024-9-4 13:40

瀏覽

0收藏

一、概述

Title: InstructUIE: Multi-task Instruction Tuning for Unified Information Extraction

Paper: https://arxiv.org/abs/2304.08085

1 Motivation

大語言模型解鎖了非常強的多任務能力，但是大模型在信息抽取任務上表現比較差，例如gpt-3.5-turbo在Ontonotes數據集上的f1只有18.22。

2 Methods

2.1 整體結構

大模型時代信息抽取任務該何去何從？復旦發布InstructUIE提升大模型信息抽取能力-AI.x社區

說明：

1）基于Instruction tuning技術，實現了一個信息抽取的統一框架，可以實現各式各樣的信息抽取任務，并且能挖掘內部任務之間的依賴關系。

2）將三大信息抽取任務都轉化成Multi-Task Instruction Tuning的形式來解決。每個部分包括Instruction，Options，text三個輸入，并且按照特定格式輸出最終結果。

2.2 引入輔助任務（子任務）提高精度

說明：為了在更細粒度的水平上提高性能，設計了與主要任務一起訓練的輔助任務，其中對于實體抽取、關系抽取、事件抽取分別設置了不同的輔助任務。詳情如下：

實體識別輔助任務：引入了跨度提取任務（span extraction task）和實體類型（entity typing task）任務。跨度提取任務旨在從輸入句中提取實體跨度，而實體類型任務旨在識別實體的類型。
關系抽取輔助任務：實體對提取任務旨在提取關系中涉及的實體對，而關系分類任務旨在對實體對之間的關系類型進行分類。
事件抽取輔助任務：觸發器提取任務旨在提取觸發事件的觸發詞，而參數提取任務旨在提取相關的論點。

2.3 prompts樣例

大模型時代信息抽取任務該何去何從？復旦發布InstructUIE提升大模型信息抽取能力-AI.x社區

說明：prompts中按照不同的任務給出instructions，并且給出輸出格式要求

2.4 提出了新的評測benchmark

提出了IE INSTRUCTIONS，32個不同信息提取數據集的基準（benchmark），采用統一的文本到文本格式，帶有有專家編寫的instructions，用于評測本文方法的有效性。

大模型時代信息抽取任務該何去何從？復旦發布InstructUIE提升大模型信息抽取能力-AI.x社區

3 Conclusion

實驗結果表明，本文方法在監督環境中實現了與Bert相當的性能，并且在zero-shot設置中優于最先進的和gpt3.5

1000個樣本監督學習：取得了和BERT監督學習可比較的一個效果。

zero-shot：在zero-shot的能力上取得了sota，比gpt3.5sota也好得多。

利用一個multi-task模型可以解決大量的任務

二、詳細內容

1 與UIE以及USM等方法對比

不同方法優缺點總結：

1）LMM：例如chatgpt等大模型在IE任務中表現不佳，本文提出InstructUIE探索大模型解決信息抽取新范式。

2）UIE：text-to-structure，對于不同的下游任務，需要單獨進行finetune，遇到新label schema或者低資源情況下效果比較差。

3）USM: 是一個統一的IE任務框架，它將IE任務轉換為se-mantic匹配問題。缺點一：它將IE轉換為語義匹配任務，這使得很難與生成語言模型集成。缺點二：該方法要求對每個單詞進行語義匹配，這導致訓練和推理時間顯著增加。

2 Experiments

2.1 有監督學習（每個數據集10000樣本）

實體抽取結果：

大模型時代信息抽取任務該何去何從？復旦發布InstructUIE提升大模型信息抽取能力-AI.x社區

關系抽取和事件抽取結果：

大模型時代信息抽取任務該何去何從？復旦發布InstructUIE提升大模型信息抽取能力-AI.x社區

結論：

1. NER：所有數據集都只有1萬的訓練集，平均F1 85%，超過了BERT的80%，20個任務有17個都超過BERT，很多超過了5個點，最多超過25個點，落敗的數據集上訓練集只有別人的20%，但是模型比BERT大很多。

2. RE：平均f1: 67.98%。

3. EE：Event trigger f1: 71.69%，Event Argument F1 metric，比UIE和SUM都好很多。

實驗設置詳情：

1）Backbone：11B TlanT5

2）Dataset：IE INSTRUCTIONS涉及三種信息抽取任務，named entity extraction, relation extraction, and event extraction，每個數據集sample10000數據

3）對比Baseline：UIE：text-to-structure generation framework，USM：將IE任務轉化成語義匹配任務，BERT

4）Metrics：Micro-F1，NER：實體邊界和類型都要對，RE：主實體，副實體，關系都要對。EE事件觸發：觸發類型和觸發詞都要對，事件參數：role type 和 event type匹配

2.2 few-shot結果（非訓練集評測）

?

大模型時代信息抽取任務該何去何從？復旦發布InstructUIE提升大模型信息抽取能力-AI.x社區

結論：

NER：血洗了之前的few-shot方法，提升幅度在5.21%-25.27之間
RE：同樣血洗之前方法，提升了4-6個點（33%->39%）。

2.3 與chatgpt對比

大模型時代信息抽取任務該何去何從？復旦發布InstructUIE提升大模型信息抽取能力-AI.x社區

結論：在信息抽取任務上，比chatgpt效果要好非常多

三、總結

信息抽取是一個定制化的比較難的任務，和場景關系密切。原始chatglpt在信息抽取任務上效果比較差，現在想想也是正常，因為信息抽取任務和任務場景密切相關，并且標注難度高。對于實體類型的定義沒有一個明確的標準，chatgpt就比較難以理解。例如標注人名，多個人分開標注還是一起標注，人工標注可能一致性都不太高。
針對信息抽取任務構建指令遵循進行SFT訓練可以進一步提升大模型在信息抽取任務上的表現。最重要的是構建指令，選項，答案的形式，讓模型在信息抽取任務的指令遵循能力得到增強，因為可能chatgpt等模型構建數據集的時候，可能更偏向一些常規任務的解決，信息抽取指令數據偏少。
引入額外的輔助任務可以讓大模型更好地理解信息抽取任務。本文對于實體識別、關系抽取、事件抽取分別引入了額外的輔助子任務，并且通過統一的指令形式來構建任務，加強子任務的理解，從而也可以提升全局信息的表現。

四、參考

[1] Wang X, Zhou W, Zu C, et al. InstructUIE: Multi-task Instruction Tuning for Unified Information Extraction[J]. arXiv preprint arXiv:2304.08085, 2023.

本文轉載自?? NLP PaperWeekly??，作者： NLP PaperWeekly

標簽

大模型

信息抽取

Methods

贊

回復