【EMNLP2021&&含源码】端到端(seq2seq)关系提取--罗马大学
喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!
引言
今天给大家分享一篇关于关系抽取的文章,关系抽取是自然语言处理中信息抽取(EI)的重要组成部分。如果您对信息抽取、关系抽取、实体抽取、事件抽取还不是很了解可以阅读以下几篇文章:必看!一文了解信息抽取(IE)【命名实体识别NER】必看!一文了解信息抽取(Information Extraction)【事件抽取】必看!一文了解信息抽取(Information Extraction)【关系抽取】
论文信息:REBEL: Relation Extraction By End-to-end Language generation
源码地址:https://github.com/Babelscape/rebel
如果您下载不方便,回复:REBEL 获取源码及论文。
正文开始
1前言介绍
传统情况下,关系抽取这项任务被视为两个问题。首先要在文本中抽取实体,如命名实体识别 (NER),然后进行关系分类(RC),检查提取的实体之间是否存在关联关系。但是确定哪些实体真正共存在关系是一件比较有挑战的事情,它需要额外的处理步骤,例如负采样和昂贵的标注过程。
最近,端到端方法已被用于同时处理这两项任务。此任务通常称为关系提取或端到端关系提取 (RE)。在这种情况下,模型同时针对两个目标进行训练。模型可以分配特定的管道来处理的不同任务,例如一方面是 NER,另一方面是对预测实体 (RC) 之间的关系进行分类。尽管采用这种方式效果比较好,但是这些模型通常很复杂,以任务为中心的元素需要适应关系或实体类型的数量,并且它们不够灵活,无法处理不同性质(句子与文档级别)或领域的文本 . 此外,它们通常需要很长的训练时间才能对新数据进行微调。
在本文中,我们提出了 REBEL(Relation Extraction By End-to-end Language generation),一种自回归方法,将关系提取作为一项seq2seq任务,与REBEL数据集(一个大型远程监控数据集)结合使用并且该数据集是通过利用自然语言推理模型获得的。由于我们采用了简单的三元组分解成文本序列,本文的方法比以前的端到端方法有一些优势。通过使用本文的新数据集对编码器-解码器转换器(BART)进行预训练,REBEL在几次微调期间在一系列关系提取(RE)基线上实现了最好的结果。它的简单性使它能够高度灵活地适应新的域或更长的文档。由于在预训练阶段之后仍然使用相同的模型权重,因此无需从头开始训练特定于模型的组件,从而提高训练效率。
此外,虽然该模型是为关系提取而设计的,但同样的方法可以推广到关系分类,仍然能够获得不错的效果。我们使REBEL既可以作为一个独立的模型使用,能够提取200多种不同的关系类型,也可以作为一个经过预训练的RE模型使用,可以轻松地在新的RE和RC数据集上进行微调。我们还提供REBEL数据集,以及管道用于从任何 Wikipedia 转储中提取高质量的 RE 数据集。
对于 REBEL,我们将数据集中的文本作为输入,并将线性化的三元组作为输出。如果 x 是我们的输入句子,y 是 x 中关系线性化的结果,如第 3.1 节所述,REBEL 的任务是在给定 x 的情况下自回归生成 y:
通过在这样的任务上微调BART,使用摘要或机器翻译中的交叉熵损失,我们最大化了在给定输入文本的情况下生成线性化三元组的对数可能性。
自回归转换器模型(如 BARTor T5)已被证明在不同的生成任务(如翻译或摘要)上表现良好,但它们确实需要大量数据进行训练。另一方面,端到端关系提取数据集很少,而且通常很小。在Elsahar 等人的研究中, (2018) T-REx 数据集是通过设计一个从 DBpedia 摘要中提取实体和关系的管道来创建的,以克服缺乏大型 RE 数据集的问题。虽然结果是一个大型数据集,但注释的质量存在一些问题。首先,使用有点旧的实体链接工具(Daiber 等人,2013 年)会导致实体被错误地消除歧义。由于关系是通过使用这些实体提取的,因此会导致关系缺失或错误。此外,大多数关系是通过假设提取的,因此,如果这两个实体存在于文本中,那么这种关系就必然存在。
为此我们通过扩展他们的管道来创建一个大型银数据集来克服这些问题,用作 REBEL 的预训练。我们使用 Wikipedia2 摘要,即每个 Wikipedia 页面在目录之前的部分,使用 wikiextractor (Attardi, 2015) 提取。然后,我们使用 wikimapper3 将文本中存在的实体作为超链接以及日期和值链接到 Wikidata 实体。由此,我们提取了维基数据中这些实体之间存在的所有关系。我们的系统可以与多种语言的任何维基百科转储一起使用,使用多核进程和 SQL 实现轻松快速的提取,以避免维基数据转储的内存问题。
与基线结果进行对比:
资料整理不易,帮忙点个【赞】、【在看】吧