收藏！ChatGPT等大语言模型（LLMs）测试数据集--整理分享

Original ShuYini AINLPer 2023-07-10

收录于合集

点击下方卡片，关注‘’AINLPer‘’

更多干货，第一时间送达

引言

随着大语言模型(LLMs)的快速发展，如何量化地评估模型能力，就需要用到一些公认地数据集进行评测。基于之前分享地一篇文章ChatGPT输出不稳定！| 如何评估ChatGPT回答复杂问题的能力（东南大学&开源），作者今天整理了7个用于评估大型语言模型地数据集。另外数据集及对其论文，也整理到一块，有用到地小伙伴可以下载，具体下载方式放到最后。

WebQuestionSP数据集

「WebQuestionSP数据集」 是由微软构建的数据集，最早发布在ACL2016顶会上。它建立在斯坦福大学研究人员使用谷歌建议API创建的WebQuestion数据集之上。它通过使用相应的SPARQL查询语句注释每个答案并删除模糊、不清楚或无法回答的问题来增强原始数据集。WebQuestionsSP数据集包含SPARQL查询中4,737个问题的完整语义解析，以及剩余1,073个问题的“部分”注释（其中这些问题无法制定有效的解析，或者问题本身不好或需要描述性答案）。此版本还包括一个评估脚本和 STAGG 语义解析系统在使用完整语义解析进行训练时的输出。

ComplexWebQuestions数据集

「ComplexWebQuestions数据集」 是一个用于「测试模型回答复杂问题」的数据集，最早由特拉维夫大学发布在「NAACL2018顶会」上。它包含了大量复杂的问题，这些问题需要在多个web片段上进行推理并且可以以多种方式使用：1)通过与搜索引擎交互，这是该数据集的优势；2)作为阅读理解任务：该数据集包含12,725,989个与问题相关的网络片段，这些片段是在模型开发过程中收集的；3）作为语义解析任务：每个问题都与SPARQL查询配对，可以对Freebase执行SPARQL查询来检索答案。

GraphQuestions数据集

「GraphQuestions数据集」 是一个「特征丰富的事实型问答数据集」，最早由加州大学发布在「EMNLP2016顶会」上。该数据集的建设旨在探索如何系统地构建特征丰富的问答数据集，为社区提供具有丰富且明确指定问题特征的数据集。通过该数据集可以对 QA 系统进行细粒度的评估，即开发人员可以确切地知道他们的系统在什么样的问题上失败了，并相应地进行改进。GraphQuestions 由一组具有逻辑形式和真实答案的事实问题组成。数据集的当前版本（v1.0）包含 5,166 个问题，这些问题是基于大型知识库 Freebase 构建的。一系列问题特征被形式化，每个问题都有一个明确的特征规范：1）结构复杂性：问题中涉及的关系数量；2）功能：附加功能，如计数或最高级，例如，“Ned Stark 有多少孩子出生在 Winterfell？” 3）共同性：一个问题有多普遍，例如，“奥巴马出生在哪里？” ；4）释义：同一个问题的不同自然语言表达；5）答案基数：问题答案的数量

GrailQA数据集

「GrailQA数据集」 是迄今为止「最大的具有高度多样性问题的众包KBQA数据」集(英文全称: Generalization for Question Answering on Knowledge Bases)，最早由俄亥俄州立大学发布在www'21会议上。该数据集有64331个问题，用不同语法(即SPARQL、S-expression等)的答案和相应的逻辑形式进行了注释。除此之外该数据集的问题最多可以有4个关系，还可以选择有计数、最高级和比较的功能)。它的覆盖率也超过了Freebase；它广泛覆盖了3720个关系和86个Freebase域。它可以「用于测试KBQA中的三个级别的泛化:i.i.d，组成和零镜头」。

KQApro数据集

「KQApro数据集」 一个「用于复杂KBQA的大规模数据集」，由北京科技大学发布在2022年ACL国际顶会上，该数据由大约120,000个自然语言问题组成。针对该数据集，作者引入了一种组合式和可解释的编程语言KoPL来表示复杂问题的推理过程，对于每个问题都有相应的KoPL程序和SPARQL查询，这样KQA Pro就可以同时用于KBQA和语义解析任务。该数据集题目的多样性和挑战性很强，需要多种推理能力，包括复合推理、多跳推理、定量比较、集合运算等。

QALD-9数据集

「QALD-9数据集」 是一个标准的基于知识的「多语言问答」数据集（英文全称：Question Answering over Linked Data），由Usbeck et al.于2018年发布，该数据集由580个问题组成，涵盖大约13种语言。关联数据问答 (QALD) 挑战旨在提供最新基准，用于评估和比较最先进的系统。在过去的几年里，超过 40 个研究小组和他们的系统参与了九个 QALD 挑战。QALD 挑战面向所有从事关联数据查询、用于问答的自然语言处理、多语言信息检索和相关主题的研究人员和从业人员。主要目标是深入了解不同方法的优点和缺点，以及处理语义 Web 数据的大型、异构和分布式特性的可能解决方案。QALD数据集已有 8 年的历史，分别从QALD1到QALD9，目前QALD最新的数据集是QALD-Plus。

MKQA数据集

「MKQA数据集」 是一个开放域多语种问答评估数据集(英文全称：Multilingual Knowledge Questions and Answers)，由苹果于2021年在ACL顶会上发布，。它包含 10,000 个 QA 对，跨越 26 种不同类型的语言（总共 260,000 个 QA 对）。MKQA 从 Natural Questions 数据集中选择 10k 个真实的英语查询，然后人工将它们翻译成 25 种其它语言和方言（包括：「中、日、韩、俄、英等我们熟知的语言」）。伴随这些查询翻译，我们将 NQ 的段落嵌入式答案跨度替换为高质量、独立于语言和检索的答案注释，直接链接到维基数据实体和一组有限的明确定义的值类型（数字、日期、字符串等）。

数据集及论文获取，后台回复：LLMs测试数据集

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

这样的洞庭湖决堤，实在让人同情不起来

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

收藏！ChatGPT等大语言模型（LLMs）测试数据集--整理分享

引言

WebQuestionSP数据集

ComplexWebQuestions数据集

GraphQuestions数据集

GrailQA数据集

KQApro数据集

QALD-9数据集

MKQA数据集

推荐阅读

点击下方链接🔗关注我们

「资料整理不易，点个赞、再看吧」

您可能也对以下帖子感兴趣

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

这样的洞庭湖决堤，实在让人同情不起来

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

生成图片，分享到微信朋友圈

收藏！ChatGPT等大语言模型（LLMs）测试数据集--整理分享

引言

WebQuestionSP数据集

ComplexWebQuestions数据集

GraphQuestions数据集

GrailQA数据集

KQApro数据集

QALD-9数据集

MKQA数据集

推荐阅读

点击下方链接🔗关注我们

「资料整理不易，点个赞、再看吧」

您可能也对以下帖子感兴趣