大模型時代信息抽取任務該何去何從?復旦發布InstructUIE提升大模型信息抽取能力
一、概述
Title: InstructUIE: Multi-task Instruction Tuning for Unified Information Extraction
Paper: https://arxiv.org/abs/2304.08085
1 Motivation
大語言模型解鎖了非常強的多任務能力,但是大模型在信息抽取任務上表現比較差,例如gpt-3.5-turbo在Ontonotes數據集上的f1只有18.22。
2 Methods
2.1 整體結構
說明:
1)基于Instruction tuning技術,實現了一個信息抽取的統一框架,可以實現各式各樣的信息抽取任務,并且能挖掘內部任務之間的依賴關系。
2)將三大信息抽取任務都轉化成Multi-Task Instruction Tuning的形式來解決。每個部分包括Instruction,Options,text三個輸入,并且按照特定格式輸出最終結果。
2.2 引入輔助任務(子任務)提高精度
說明:為了在更細粒度的水平上提高性能,設計了與主要任務一起訓練的輔助任務,其中對于實體抽取、關系抽取、事件抽取分別設置了不同的輔助任務。詳情如下:
- 實體識別輔助任務:引入了跨度提取任務(span extraction task)和實體類型(entity typing task)任務。跨度提取任務旨在從輸入句中提取實體跨度,而實體類型任務旨在識別實體的類型。
- 關系抽取輔助任務:實體對提取任務旨在提取關系中涉及的實體對,而關系分類任務旨在對實體對之間的關系類型進行分類。
- 事件抽取輔助任務:觸發器提取任務旨在提取觸發事件的觸發詞,而參數提取任務旨在提取相關的論點。
2.3 prompts樣例
說明:prompts中按照不同的任務給出instructions,并且給出輸出格式要求
2.4 提出了新的評測benchmark
提出了IE INSTRUCTIONS,32個不同信息提取數據集的基準(benchmark),采用統一的文本到文本格式,帶有有專家編寫的instructions,用于評測本文方法的有效性。
3 Conclusion
- 實驗結果表明,本文方法在監督環境中實現了與Bert相當的性能,并且在zero-shot設置中優于最先進的和gpt3.5
1000個樣本監督學習:取得了和BERT監督學習可比較的一個效果。
zero-shot:在zero-shot的能力上取得了sota,比gpt3.5sota也好得多。
- 利用一個multi-task模型可以解決大量的任務
二、詳細內容
1 與UIE以及USM等方法對比
不同方法優缺點總結:
1)LMM:例如chatgpt等大模型在IE任務中表現不佳,本文提出InstructUIE探索大模型解決信息抽取新范式。
2)UIE:text-to-structure,對于不同的下游任務,需要單獨進行finetune,遇到新label schema或者低資源情況下效果比較差。
3)USM: 是一個統一的IE任務框架,它將IE任務轉換為se-mantic匹配問題。缺點一:它將IE轉換為語義匹配任務,這使得很難與生成語言模型集成。缺點二:該方法要求對每個單詞進行語義匹配,這導致訓練和推理時間顯著增加。
2 Experiments
2.1 有監督學習(每個數據集10000樣本)
實體抽取結果:
關系抽取和事件抽取結果:
結論:
1. NER:所有數據集都只有1萬的訓練集,平均F1 85%,超過了BERT的80%,20個任務有17個都超過BERT,很多超過了5個點,最多超過25個點,落敗的數據集上訓練集只有別人的20%,但是模型比BERT大很多。
2. RE:平均f1: 67.98%。
3. EE:Event trigger f1: 71.69%,Event Argument F1 metric,比UIE和SUM都好很多。
實驗設置詳情:
1)Backbone:11B TlanT5
2)Dataset:IE INSTRUCTIONS涉及三種信息抽取任務,named entity extraction, relation extraction, and event extraction,每個數據集sample10000數據
3)對比Baseline:UIE:text-to-structure generation framework,USM:將IE任務轉化成語義匹配任務,BERT
4)Metrics:Micro-F1,NER:實體邊界和類型都要對,RE:主實體,副實體,關系都要對。EE事件觸發:觸發類型和觸發詞都要對,事件參數:role type 和 event type匹配
2.2 few-shot結果(非訓練集評測)
?
結論:
- NER:血洗了之前的few-shot方法,提升幅度在5.21%-25.27之間
- RE:同樣血洗之前方法,提升了4-6個點(33%->39%)。
2.3 與chatgpt對比
結論:在信息抽取任務上,比chatgpt效果要好非常多
三、總結
- 信息抽取是一個定制化的比較難的任務,和場景關系密切。原始chatglpt在信息抽取任務上效果比較差,現在想想也是正常,因為信息抽取任務和任務場景密切相關,并且標注難度高。對于實體類型的定義沒有一個明確的標準,chatgpt就比較難以理解。例如標注人名,多個人分開標注還是一起標注,人工標注可能一致性都不太高。
- 針對信息抽取任務構建指令遵循進行SFT訓練可以進一步提升大模型在信息抽取任務上的表現。最重要的是構建指令,選項,答案的形式,讓模型在信息抽取任務的指令遵循能力得到增強,因為可能chatgpt等模型構建數據集的時候,可能更偏向一些常規任務的解決,信息抽取指令數據偏少。
- 引入額外的輔助任務可以讓大模型更好地理解信息抽取任務。本文對于實體識別、關系抽取、事件抽取分別引入了額外的輔助子任務,并且通過統一的指令形式來構建任務,加強子任務的理解,從而也可以提升全局信息的表現。
四、參考
[1] Wang X, Zhou W, Zu C, et al. InstructUIE: Multi-task Instruction Tuning for Unified Information Extraction[J]. arXiv preprint arXiv:2304.08085, 2023.
本文轉載自?? NLP PaperWeekly??,作者: NLP PaperWeekly
