查看原文
其他

COLING 2020 | 面向机器阅读理解的双向认知思维网络

张琨 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者|张琨
学校|中国科学技术大学博士生
研究方向|自然语言处理



Motivation

近两年,大家纷纷在提我们正在从感知智能向认知智能迈进,模型需要具备认知理解推理能力。研究人员也从这方面进行了深入研究。一个非常直观的方法就是借鉴人的认知行为方式,使用神经网络进行模拟,从而提升模型的效果,之前就有研究人员在Drr-net: Dynamic re-read network for sentence semantic matching [1] 文章中实现了人类的重读机制。



论文标题:

Bi-directional Cognitive Thinking Network for Machine Reading Comprehension


论文作者:

Wei Peng / Yue Hu / Luxi Xing / Yuqiang Xie / Jing Yu / Yajing Sun / Xiangpeng Wei


论文链接:

https://arxiv.org/abs/2010.10286


在本文中,作者同样是基于这个想法,借鉴人类的认知行为习惯进行机器阅读理解。因此本文需要解决的问题就是:借鉴哪些行为习惯,如何借鉴,如何与机器阅读理解模型进行融合。


Model
了解了本文的基本想法,那么在介绍本文提出的方法之前,首先介绍本文要借鉴的两个认知行为习惯:
2.1 认知行为习惯
1. inertial thinking,惯性思维:一种方便快捷的思维方法,根据之前的经验和想法去思考和解决问题;

2. reverse thinking,逆向思维:和惯性思维相反,利用和常规思路相反的形式去思考和解决问题。

将这两种思想应用到阅读理解任务中,以上图为例:如果是惯性思维的话,那就是根据问题选出答案,如果是逆向思维的话,就是根据答案和段落学习到需要关注的点是两个方面,包括 can pregnant women eat loquat 和what is the benefit to eat loquat for pregnant women 。

通过这两部分的重点关注,就能够更全面的理解问题和段落,从而实现更为准确的回答。基于这个想法,作者设计了自己的模型。

2.2 Bi-directional Cognitive Thinking Network

下图是整个模型的框架图,其中最主要的是这两部分 Backward Encoder 和 Forward Encoder。模型的训练过程也主要包含两阶段,Reverse Thinking Training :该阶段主要通过答案和段落推理问题是什么;Retraining with Inertial Thinking:在已有的逆向思维的结果上,通过重新分析给定段落和问题实现最终的答案的生成。

1. Reverse Thinking Training

该部分的主要过程可以由下图实现,作者通过一系列复杂的操作最终模拟了人的逆向思维。

首先是输入,将段落和答案拼接到一起得到作为一个输入,同时为了根据答案确定段落中的相关信息,将答案独自编码,得到语义表示向量,该过程可以表示为如下形式:

之后,模型要模拟人的逆向思维过程,用于挖掘 U 和 V 之间(答案和段落)的关联,因此这里使用了一个堆叠的模块,其中    都是随机初始化,在第 j 步,整个过程可以表示为,首先   和 U 进行拼接,然后经过一个非线性变化,接下来通过 attention 计算得到答案开始的概率分布 ,然后利用   去得到更新之后的起始推理向量 ,整个过程可以表示为如下形式:

得到起始推理向量表示之后,类似的方法计算得到终止推理表示向量:

与此同时,还会使用得到的起始与终止推理表示向量去更新段落的表示,即模型图中的第 5 步:

除此之外,作者还加了门控结构用于控制逆向思维在整个模型中的强度:

其中的权重来自于 BERT 的 multi-head attention 权重。接下来通过池化操作就得到了模拟逆向思维的输出:
最后,通过融合操作和解码就实现了答案的生成过程:

整个过程都是一个逆向思维的过程,同时为了模拟正向思维(惯性思维)的过程,作者使用了类似的方法对整个模型进行了重新的训练,只是在一些细节处理上进行了调整。为了方便阅读,这里不再进行展示,具体细节可以参考原论文。


Experiments
为了验证整个模型的效果,作者在一个中文的数据集 DuReader 上进行了模型的验证,这部分还是有一些不足的,只进行了一个数据的验证,如果能够进行多个数据集的验证就能够更加有效的证明模型的效果了。相关的实验结果如下图。
相关的实验内容还是都做了的,也证明了模型的效果。


Conclusion
本文从模拟人类认知行为的角度入手,通过设计神经网络模拟逆向思维和惯性思维实现了机器阅读理解模型效果的提升,理论切入和介绍还是很吸引人的,只是模型设计过于复杂,很多地方没有详尽的解释,同时实验相对较少,如果能够进行更充分的实验,就更好了。

参考文献

[1] https://ojs.aaai.org/index.php/AAAI/article/view/4734/4612


更多阅读




#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存