查看原文
其他

(含源码)「自然语言处理(NLP)」华南理工 && 腾讯AI Lab(基于知识库的感知对话生成)

ShuYini AINLPer 2023-07-10

喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!



引言

    文章提出了一种新的知识感知对话生成模型TransDG,该模型将知识库问答任务中的问题表示和知识匹配能力转化为会话生成中的话语理解和客观知识选择。此外,本文还提出了一个响应引导注意机制和一个多步骤解码策略,以引导我们的模型关注反应生成的相关特征。在两个基准数据集上的实验表明,该模型在生成信息丰富、流畅的对话方面具有明显的优势。

本文概要

1

First Blood


2

Aced


3

Attention

正文开始

1First Blood

TILE: Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering.

Contributor : 华南理工大学 && 腾讯AI Lab(广州)

Paper: https://arxiv.org/pdf/1912.07491v1.pdf

Code: https://github.com/siat-nlp/TransDG


文章摘要

    文章提出了一种新的知识感知对话生成模型TransDG,该模型将知识库问答任务中的问题表示和知识匹配能力转化为会话生成中的话语理解和客观知识选择。此外,本文还提出了一个响应引导注意机制和一个多步骤解码策略,以引导我们的模型关注反应生成的相关特征。在两个基准数据集上的实验表明,该模型在生成信息丰富、流畅的对话方面具有明显的优势。


文章主要内容

    1、提出了一种新的知识感知对话生成模型TransDG,该模型将知识库中的问题理解能力和事实提取能力转化为后理解能力和知识库中的事实知识选择能力。

    2、提出了一种多步译码策略,该策略能够捕捉到信息与响应之间的信息连接。第一步解码器产生的post和draft响应都与KB中的相关事实相匹配,使得第二步解码器产生的最终响应相对于post更合适、更合理。    

    3、提出了一种响应引导注意机制,利用k-最佳响应候选项引导模型关注相关特征。

    4、在真实对话数据集上的大量实验表明,我们的模型在定量和定性两方面都优于比较方法。


对话生成模型TransDG

    如下图所示,该模型主要包含两个部分:一个KBQA模型和一个对话生成模型,在这个模型中,从KBQA任务中获得的知识在编码和解码阶段都被转换为对话生成。



编码层

    问题表示:利用单词级和依赖级信息来学习问题Q的表示。主要采用双向门控递归单元(BiGRU)获取问题中单词的隐藏状态。为了更好地捕捉问题中单词之间的长期依赖关系,遵循(Xu et al. 2016【Question answering on freebase via relation extraction and textual evidence.】)使用依赖路径作为额外的表示,将单词和依赖项标签与方向连接起来。通过填充来对齐单词级和依赖级序列,并通过元素添加来合并它们的隐藏状态。

    候选回答表示: KBQA任务中的候选答案表示为,其中每个答案都是特定知识库中的一个事实,以主题实体、关系、对象实体的形式存在。我们在字级和路径级对这些事实进行编码。


知识感知对话生成

    给定一个请求,对话的一代的目标是生成一个适当的响应,其中n和m分别表示请求和响应回答的长度。如上图所示,我们的对话生成模型从KBQA任务中传输知识,从而促进知识级别的对话理解和事实选择。

知识感知编码器

    对话生成使用基于端到端(Seq2Seq)的方法来生成给定请求的响应。Seq2Seq的编码器一个字一个字地读取请求 X,并通过GRU生成每个单词的隐藏表示。为了丰富请求的代表性以便更好的理解,提出了一个响应引导注意机制,它使用检索到的类似请求的响应来引导模型只关注相关信息。


知识感知多步解码器

    知识感知解码器采用多步译码策略,将从预先训练的KBQA模型中学习到的知识选择能力转化为响应。第一步解码器通过整合与请求相关的外部知识来生成草稿响应。第二步解码器通过参考第一步解码器产生的请求、上下文知识和草稿响应来生成最终响应。这样,多步译码器就可以捕捉到请求和响应之间的知识连接,从而产生更连贯、信息量更大的响应回答。


实验结果   

    如下表2所示,TransDG对所有数据集的perplexity最低,表明生成的响应更符合语法。

    下表3表明,利用外部知识的模型在生成有意义的实体词和不同的响应方面比标准Seq2Seq模型取得了更好的性能。特别地,本文模型以最高的实体分数显著地优于所有的基线。验证了知识转移的有效性。

    下表4中所示的BLEU值展示了单词级重叠的比较结果。在大多数情况下,TransDG生成的响应比基线更接近gold响应。

    如表5所示,TransDG在人的注释方面更倾向于产生更合适的、信息量更大的响应。具体而言,TransDG产生的响应比其他模型具有更高的知识相关性,说明TransDG能够有效地纳入适当的常识知识。

表6列出了TransDG和与基线模型针对请求产生的响应答复。



2
Aced

    如果论文你不方便一篇一篇的下载,你还可以直接访问我的GitHub直接下载所有文章地址:

https://github.com/yinizhilian/ACL_Paper

Attention:欢迎关注AINLPer微信公众号,了解更多最新的关于深度学习、自然语言处理相关的知识。

长按识别下方二维码,关注我们吧(づ ̄3 ̄)❤~

来都来了,点个【好看】再走吧~~~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存