喜报!AAIG自然语言理解实验室7篇论文被EMNLP 2022录用

Original AAIG 阿里巴巴人工智能治理研究中心 2023-11-28

热

烈

祝

贺

AAIG产出的7篇论文被EMNLP 2022录用！🎉

近日，EMNLP 2022录用结果出炉，阿里巴巴AAIG自然语言理解实验室从内容风控实际业务出发，抽象出文本对抗、情感分析、冒犯言论理解、多模态实体消歧等研究点，产出7篇论文被EMNLP 2022录用。

EMNLP会议

EMNLP（Conference on Empirical Methods in Natural Language Processing）是计算语言学和自然语言处理领域的顶级国际会议，由ACL旗下SIGDAT组织，每年举办一次，Google Scholar计算语言学刊物指标中排名第二。EMNLP 2022将于2022年12月7日-11日在阿布扎比举办。主题为“在NLP中的开放问题、主要障碍以及未解决的问题”。官网地址：https://2022.emnlp.org/

接下来分享上榜的7篇论文

第1篇

Supervised Prototypical Contrastive Learning for Emotion Recognition in Conversation

作者：宋晓辉，黄龙涛，薛晖，虎嵩林

类型：【EMNLP 2022 主会】长文

摘要：在对话过程中捕捉用户情感在对话系统中有广泛的应用前景。然而，情感和语义之间的弱相关性给对话情感分析（ERC）带来了许多挑战。即使是语义相近的句子，也可能因上下文或说话者的不同而表达完全不同的情感，对比学习恰好适用于这样的场景。在本文中，我们为 ERC 任务提出了有监督原型对比损失（SPCL）。

我们在有监督对比学习中引入了原型网络的思想，让对比学习可以在类别不均衡的情况下以小批量良好的工作。同时，考虑到ERC数据集大多为多模态数据，文本数据存在模态信息缺失的问题，我们设计了一个基于类间距离的样本难度度量函数，引入课程学习来缓解极端样本的影响。我们在MELD、IEMOCAP和EmoryNLP上的实验表明，我们的方法明显优于SOTA方法，证明了我们提出的 SPCL 和课程学习策略的有效性。该工作与中科院信工所虎嵩林老师合作完成。

第2篇

Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP

作者：陈扬意，高鸿成，崔淦渠，岂凡超，黄龙涛，刘知远，孙茂松

类型：【EMNLP 2022 主会】长文

摘要：文本对抗样本在自然语言处理（NLP）中的多个子领域发挥着重要的作用，包括模型的安全、评估、可解释性和数据增强。然而，大多数的研究混淆了这些作用，忽视了安全场景的定义和研究目标，因为安全场景的研究目的更多的是揭示NLP模型在现实世界中的问题。

在本文中，我们重新思考了安全场景下的文本对抗样本的研究范式。我们讨论了以前工作中的不足之处，并提出了我们的建议，即面向安全的对抗性NLP（SoadNLP）的研究应该满足的2个要素：(1)在安全任务上评估他们的方法，以证明其在现实世界中的问题；(2)考虑现实世界攻击者的目标，而不是开发不实用的攻击算法。为此，我们首先收集、处理并发布了一个安全数据集Advbench；然后，我们重新定义了攻击任务并调整SoadNLP中不同攻击目标的重点；接下来，我们提出了一个基于启发式规则的简单方法，可以很容易地模拟真实世界的攻击实现对抗目标。

我们在Advbench上进行了攻击和防御的实验，结果表明我们的方法具有更高的实用价值，并证明了SoadNLP的研究范式可以从我们的新基准开始。该工作与清华大学自然语言处理与社会人文计算实验室刘知远老师团队合作完成。

第3篇

Multimodal Knowledge Learning for Named Entity Disambiguation

作者：张东杰，黄龙涛，马婷，薛晖

类型：【Findings of EMNLP 2022】长文

摘要：随着在线社交媒体的普及，海量多模态信息给传统的命名实体消歧（NED）任务带来了新的挑战。多模态命名实体消歧任务 (MNED)被提出，即将歧义的 mention 通过多模态上下文链接到知识图谱的实体上。现有的方法通常通过标注多模态训练数据并向传统的 NED 模型添加多模态特征来解决 MNED问题。

然而，这种方式存在以下问题：1）未能在知识层面对多模态信息进行建模，2）缺乏针足够的多模态标注数据。本文中我们探索在知识层面解决MNED的方法，通过多模态知识学习来帮助解决训练数据不足的问题。我们首先通过多模态预训练模型学习统一的多模态向量，然后我们设计了一种知识指导的迁移学习策略，从不同的模态中提取统一的表示。最后，我们通过一个交互式多模态学习网络（IMN）充分利用 mention 和知识层面的多模态信息进行消歧。在两个公共MNED数据集上的大量实验表明，我们的方法取得了目前最好的结果。

第4篇

Multiple Instance Learning for Offensive Language Detection

作者：刘劼西，孔德涵，黄龙涛，毛丁辉，薛晖

类型：【Findings of EMNLP 2022】长文

摘要：近年来，自动冒犯语言检测已经日渐成为一个重要的问题。相关的研究工作为了训练鲁棒的深度学习模型往往需要使用大量的人工标注数据，非常昂贵，尤其是在场景迁移时又需要大量新标注数据。与此同时我们注意到在线上平台上存在着许多潜在可用的“天然标签”，比如社交平台的举报和处罚信息。

但这些“天然标签”通常不精确到句子级别而是“包级别”，也就是说标签关联的是整个文档（比如文章、对话等）。因此，我们将这个任务定义为一个多样例学习（MIL）任务，来利用这些包级别的天然标签来训练冒犯语言检测模型。我们对现有MIL方法进行了细致而又系统的研究，并且提出了一种新的混合融合模型：相互注意力机制模型。为了验证该方法的效果和后续研究，我们收集了两个包级别标注的冒犯检测数据集：OLID-bags 和 MINOR。在它们上的实验结果表明我们提出的模型在包级别和句子级别预测的性能上均相对现有模型有提升。

第5篇

Text Editing as Imitation Game

作者：石宁，唐彬，袁博，黄龙涛，濮烨文，付杰，林洲汉

类型：【Findings of EMNLP 2022】长文

摘要：文本编辑(Text Editing)任务用来修复文本中不可避免存在的一些缺陷，例如语法错误等。近期的文本编辑研究框架大多将插入、替换等对文本的依次编辑转化为标签序列，从而将文本编辑任务转化为多轮序列标注任务。这样的方法只能在token级别对文本进行编辑，失去了文本编辑的灵活性。在这篇工作中，我们将文本编辑任务定义为一个具有马尔科夫性质的模仿游戏，具体而言，我们采用行为克隆的方式来实现对文本的编辑。

我们首先提出了一种轨迹生成(TG)方法，将文本内容定义为状态，将对文本的一次编辑定义为行为，从而高效地将传统的序列到序列的数据转化成状态到行为的数据。为了克服模仿学习中的数据分布漂移问题，我们提出了轨迹增强(TA)方法，通过展开并打乱专家行为序列，主动生成经过漂移行为后的状态，使得模型在训练时可以见到与原始数据不同的数据分布。

这篇工作是模仿学习在文本编辑任务的一次实践，在我们的方法框架中还有多个有趣的研究方向，例如行为设计、轨迹优化等，我们将在后续工作中继续深入研究，推动强化学习在自然语言处理中的应用。该工作与上海交通大学约翰·霍普克罗夫特计算机科学中心林洲汉老师团队合作完成。

第6篇

RoChBert: Towards Robust BERT Fine-tuning for Chinese

作者：张子晗，李进锋，石宁，袁博，刘翔宇，张荣，薛晖，孙东红，张超

类型：【Findings of EMNLP 2022】长文

摘要：针对对抗文本，近几年对抗训练和对抗检测等几种防御方法陆续被提出，它们中的大多数只能对英文对抗文本起到防御效果。也有一些工作基于中文特性进行了尝试，例如，ChineseBERT将中文字音和字形特征融入到语言模型的预训练过程中，在多项中文NLP任务上取得了最优的表现。但是ChineseBERT需要从头开始进行预训练，而且它的参数量非常多，每次都要查询输入字符对应的拼音和字形，这使得训练和预测过程都非常慢。

为了解决上述问题，我们提出了基于对抗关系图的热插拔框架RoChBERT。这是一种轻量级且灵活的方法，可以增强中文预训练语言模型的鲁棒性。首先，我们对已有的对抗关系图进行优化，生成了一个更完善的对抗关系图，来捕获汉字与汉字之间的字音和字形关系，RoChBERT将融合这两种表示，用特定的下游任务对目标模型进行微调。另外，为了进一步增强特征融合的过程，我们设计了一种新的基于课程学习的数据增强方法，我们将生成的对抗文本以及在过程中生成的中间文本都添加到训练数据集中。与传统的对抗训练相比，该方法在计算上更加高效，并且不会降低模型在正常文本上的准确率。据我们所知，这也是第一个在微调阶段加强中文预训练语言模型鲁棒性的工作。该工作与清华大学网络科学与网络空间研究院张超老师团队合作完成。

第7篇

Syntax-guided Localized Self-attention by Constituency Syntactic Distance

作者：侯晟元，开聚实，薛皓天，朱炳宇，袁博，黄龙涛，王新兵，林洲汉

类型：【Findings of EMNLP 2022】短文

摘要：近年来的研究表明，Transformers可以通过对数据的编码训练，从其浅层网络结构中隐式地学习到文本中的句法信息，尽管这高度依赖于训练数据的质量和规模。但是，如果我们可以利用外部句法解析器——该句法解析器通过定义良好的句法结构提供了更好的解析质量，那么就没有必要从数据中学习句法信息了。

这可能会潜在地提高Transformer的性能和采样效率，特别是在低资源场景中。在这项工作中，我们为Transformer提出了一种句法引导的局部自注意力机制，它允许直接合并来自外部组件解析器的句法结构。它禁止注意力机制过度关注句法结构上较远的字符标记。实验结果表明，我们的模型在各种机器翻译数据集(从小数据集到大数据集)以及不同源语言数据集上表现一致，均提升了其翻译质量。该工作与上海交通大学约翰·霍普克罗夫特计算机科学中心林洲汉老师团队合作完成。

接下来，正式介绍一下自然语言理解实验室👇

AAIG-自然语言理解实验室

负责阿里巴巴集团的内容风控业务，致力于解决内容风控场景高对抗、强变异的语言理解难题，研究文本分类、文本抽取、文本匹配、文本生成、知识图谱、符号神经推理等自然语言理解技术，落地更加鲁棒可解释的算法服务，团队提供技术已服务于集团内电商、直播、视频、新零售、健康、出行、本地生活等各类业务场景，日调用量达百亿级，自主研究成果发表于ACL、EMNLP、IJCAI、SIGIR、WWW等国际顶会，与清华、中科院、浙大、复旦等国内知名高校建立学术合作关系。

该实验室的往期论文点击👇

秋招启动🔥

欢迎23届同学加入AAIG

诚邀自然语言理解与知识图谱方向同学

可直接扫码投递简历

今日推荐

往期精彩推荐点击标题查看文章

● 专题|构造多方收益的信息流推荐系统《人工智能治理与可持续发展实践白皮书》

● AAIG成立一周年!砥砺前行,谱写新时代的科技之歌~请查收这份最新的自我介绍

● AI治理必修第14刊|AI画作获奖,但惹了众怒!英伟达、AMD恐断供高端GPU,中国AI计算或需另起炉灶!

● 听委员说｜AAIG薛晖出席杭州市"两会",提出加快建立人工智能产业的多元协同治理机制

● 如何构建企业数据管理体系?AI产品出海有哪些数据风险?浅谈AI数据合规与风险防范实践(下)