分享 8 篇NLP论文,有研究惊奇发现:大语言模型除了学习语言还学到了... ...
引言
今天继续给大家分享8篇关于自然语言处理(NLP)的论文,其中主要包括:大预言模型的研究、动态环境下的语言回应、数据增强(10%的真实数据训练结果堪比100%的数据训练)、幽默话术的识别(幽默往往和缺陷相关)、模型幻觉抑制、自动化文章评分、稀疏奖励下的强化学习等。
论文获取方法:1、直接获取,后台回复:20230307 ;2、授之以渔:论文下载收费?有它不用怕!!
1、大语言模型除了语言还学到了什么?
作者发现,预训练模型明显优于可比较的未预训练神经模型。即使在使用更少参数的未预训练模型进行训练以考虑模型正则化效应的实验中,这一点仍然成立。
他们进一步探索了文本领域对LLM的影响,通过使用来自不同领域和来源的文本对模型进行预训练。实验惊人地揭示了即使在多语言文本、计算机代码甚至是生成的合成语言文本上进行预训练,预训练的积极效果仍然存在。这表明「预训练与语言模型的归纳学习能力之间存在尚未探索的深层联系」。
2、动态环境预测
在本文中,作者提出了一种名为“语言动态蒸馏”(Language Dynamics Distillation,LDD)的方法来解决这个问题。使用LDD,他们首先训练一个模型,根据包括语言描述在内的演示来预测环境动态。然后,他们使用强化学习(RL)对这些具有语言感知的预训练表示进行微调。这使得模型不仅可以学习如何最大化预期奖励,还可以学习如何保留有关语言与环境动态相关的知识。
在五个任务的基准测试(NetHack、ALFWorld、RTFM、Messenger和Touchdown)中评估了LDD,其中这些任务具有不同的语言描述,对于推广到未见过的环境而言具有不同的挑战。在所有这些任务中,LDD表现优于tabula-rasa RL、VAE预训练和其他方法。
3、大规模文本嵌入基准MTEB
MTEB涵盖了8个嵌入任务,涉及56个数据集和112种语言。通过对33个模型在MTEB上进行基准测试,他们能够建立到目前为止最全面的文本嵌入基准。他们发现,没有特定的文本嵌入方法在所有任务中占主导地位。这表明该领域尚未在通用文本嵌入方法上达成共识并将其扩大到足以在所有嵌入任务上提供最先进结果的规模。
4、数据增强
在这篇论文中,作者们提出了一种使用大型预训练语言模型并迭代应用弱监督过滤器以提高数据质量的方法。他们在DailyDialog数据集中的情感和行为分类任务以及Facebook多语言任务导向对话数据集中的意图分类任务中测试了他们的方法。
结果表明,fine-tune在他们的数据增强混合少量真实数据上的模型在两个数据集上都优于现有的最先进模型。事实上,对于DailyDialog特别是,仅使用10%的真实数据,他们仍能胜过使用100%数据的当前最先进模型。
5、识别幽默和冒犯
然而,这个理论也表明,一些幽默识别数据集可能包含冒犯某些人群的内容。这是不可取的,「因为基于机器学习的自然语言处理系统(例如虚拟助手)不应该以冒犯性内容回应用户请求。因此,在计算幽默时识别、减轻和减少冒犯内容是至关重要的」。
在这篇论文中,作者发现在有大量注释可用时,提示(prompting)的表现与微调(fine-tuning)的表现相当。然而,在低资源幽默识别时,即有较少的注释可用时,提示可以实现更好的性能。作者还通过应用影响函数到提示中来研究幽默与冒犯之间的关系。他们发现模型可依赖于冒犯性内容来确定幽默。
6、模型幻觉抑制
在本文中,作者确定了一个简单的标准,可以显著增加模型在生成过程中分配更多概率给幻觉内容的可能性:高模型不确定性。这一发现为幻觉提供了一个潜在的解释:当模型对继续生成的内容不确定时,它们会默认偏向于高边际概率的文本,即训练集中高频发生的内容。
作者提出了一种解码策略,当模型表现出不确定性时,转而优化源标记和目标标记的逐点互信息。在 XSum 数据集上的实验表明,这种方法减少了幻觉标记的概率,同时保持了顶级解码策略的Rouge和BertS得分。
7、自动化文章评分
本研究展示了Transformer模型和数据增强在各种主题的自动化文章评分中的有效性。研究结果表明,Transformer模型是自动化文章评分的一种有前途的方法,并为进一步研究提供了建议。
8、稀疏奖励下的强化学习
相反,我们探索语言作为强调环境中相关抽象的通用媒介。与以前的工作不同,我们通过直接扩展竞争性内在探索基线AMIGo和NovelD来评估语言是否可以改进现有的探索方法。这些基于语言的变体在来自MiniGrid和MiniHack环境套件的13项具有挑战性的任务中,比其非语言形式的表现提高了47-85%。
推荐阅读
[1] 「自然语言处理(NLP)」 你必须要知道的 “ 十二个国际顶级会议 ” !
[3] 重磅!| NLP不断突破界限,2023 十篇必读的顶级NLP论文!