清华教授联合业界学者发布《AI对话系统分级定义》，加速下一代AI对话系统研发与应用

Original 张智 DeepTech深科技 2023-11-28

随着移动终端技术和网络技术的快速发展，各种智能助手已经走进每个人的生活当中，帮助人们完成各种操作，甚至可以扮演“聊天者”的身份。

世界上最早的聊天机器人是美国加州理工学院的系统工程师约瑟夫·魏泽堡（）在 1966 年开发的 Eliza（伊莉莎）机器人程序，该程序代码只有 200 行左右。“Eliza”会透过分析用户所输入的文字内容，并且将特定字句重组，变成全新字句组合。

这使得很多人都认为 Eliza 充分理解了人类语言，具有人类情感。事实上 Eliza 的对话设计加入了对话引导的心理应用，让 Eliza 能依循提问内容重复说词，或是针对关键字词进行回答，藉此满足提问者内心预期听到答案，进而达成让提问者认为对话对象是真人的目的。

图灵测试是常见用来衡量对话系统是否具有智能的依据：当同时对真人和 AI 对话系统进行提问，如果仅从两者给出的答案中无法进行区分，则该AI对话系统就具有了智能化特点。

AI 对话系统发展在历史上先后经历了三个时代，第一阶段是从 1966 年最早的 Eliza 开始到 2010年，这一阶段的对话系统显著特征为完全基于规则进行；从 2011 年开始，随着苹果的 Siri 等其他各种智能助手推向市场，进入了以传统机器学习为核心的第二代；2016 年人类开始进入深度学习时代，这时以大数据、大模型为驱动的对话系统开始变得十分流行，而且是提供了非常强大的开放领域对话能力。

现在，AI 在日常生活中随处可见，各大型公司使用的智能语音客服，例如银行或者电信服务商的服务电话，基本都配备了自动应答机器人，显著降低了公司的运营成本。人们在各种网购平台上进行购物时，在与客服进行聊天沟通时，AI 对话系统会根据提问快速给出解决方案。此外，随着云计算的快速发展，中小型公司在使用云服务的同时，也可以利用这些平台提供的 AI 对话系统完成自己所需要的功能架构。

近年来，在大数据、大算力的支持下，大量大型预训模型陆续推出，它们不仅可以回答用户的问题，还能以有趣的方式进行各种话题讨论。这些预训练模型将对话系统的研究推向了一个新的高度，在开放领域的会话能力方面有了新的突破。但是技术的快速发展也开始逐渐引入一些新的思考和问题，例如怎样衡量一个AI对话系统的性能？AI 对话系统应该朝着什么方向去进步？AI 对话技术的发展是否存在伦理问题呢？

在自动驾驶领域有一个分级定义，从 L0 到 L5 是一个六级的分级，L0 表示完全没有自动驾驶，而 L5 完全启动自动驾驶功能。在制定AI对话系统分级定义时也参考了自动驾驶分级定义的方式。6 月 28 日，由清华大学智能技术与系统实验室副主任副教授发起，联合十余家科研机构和二十多位知名学者共同制定的全球首个《AI 对话系统分级定义》正式发布。

在介绍该《分级定义》时表示，不同于自动驾驶的分级定义只需要考虑汽车和驾驶员之间的关系，对话系统任务繁多、评价维度多样、技术路线丰富，在制定分级定义时坚持了五项基本原则：

该分级定义仅关注完全由机器主导的对话系统，人机混合的对话系统不在考虑范围内。
第二，从系统表现的能力和用户可以感知的角度出发，不考虑系统的具体技术实现方式。
第三，各分级定义对应的能力水平需要可观察、可测试、可度量。
第四，该分级定义不区分助理类任务、闲聊、知识问答等，均以“场景”进行表述。
第五，该分级定义旨在衡量对话系统的能力水平，期望提供对话系统研究方向的建议和实际应用的参考。

（来源：资料图）

基于这些基本原则，团队针对 AI 对话系统提出了 L0 到 L5 的不同六项分级及各自定义。在解释 AI 对话系统定义的具体内容时，表示：

L0 级别就像一个基准点，指的是完全没有对话功能；而L1能够完成一些单一情况下，例如订票系统的对话，但却没有办法处理场景之间的上下文的关系；
而 L2 是在 L1 的基础上能够同时完成多个场景较高质量的对话，具有跨场景的上下文依赖和自然切换的能力，例如在一个对话系统中用户首先是进行音乐主题的聊天，而当切换到其他主题如电影或者音乐时，对话系统也可以自由切换，这项指标对于 L2 级别是非常关键的；
L3 则可以应对大量场景开展高质量的对话；
L4 除了具有 L3 功能外，还应该具有较高水平的拟人化程度；
而 L5 在 L4 基础上，增加了自主学习的能力。从 L0 到 L5，表示 AI 对话系统水平循序渐进地提高。

该《分级定义》后可更清晰地衡量 AI 对话系统的能力水平，为对话系统的进一步研究明确方向，同时也为商业领域应用的研发提供参考，推动AI对话系统在虚拟个人助理、智能家居、智能汽车、情感陪护和心理健康等各个领域有更明确的发展方向。

图 | 教授详细介绍《分级定义》（来源：资料图）

对于这次《分级定义》提出的意义，华为诺亚方舟语音语义首席科学家、ACL Fellow刘群教授表示，该分级定义的制定是一个比较大胆的尝试，可能这个标准还不是很完美，但大家可以不断去思考和讨论。小米技术委员会主任、AI 实验室主任王斌教授表示，在从事 AI 智能助理的研发过程中，时常感到难以评判所开发 AI 对话系统的水平，因此《分级定义》的制定非常必要。

《分级定义》发布后，AI 对话系统能力水平的衡量将有据可依。《分级定义》面向大众，面向用户，让用户能够更多地关注、更清晰地理解 AI 对话系统及其当前的能力水平；对行业来说，行业有了统一的评估规范，有助于企业明确研发方向。随着《分级定义》发布，以及后续相关评测规范的制定，能够促进行业更规范地发展。

各位专家也一致认为，这次《分级定义》的发布能够促进社会公众的认知，以及对未来AI对话系统研究带来更多系统性的思考。在该《分级定义》提出之后，会多方收集反馈意见进一步优化，教授将联合该领域相关研究机构及研究者开展白皮书的编纂，聚焦AI对话系统的发展历程，详细阐释《分级定义》的制定目的和标准。

-End-

参与本次《分级定义》的研究机构和研究者包括（以姓氏拼音排序）,科大讯飞 AI 研究院副院长陈志刚，京东集团副总裁、IEEE Fellow 何晓冬，清华大学长聘副教授，阿里达摩院总监、资深算法专家李永彬，华为诺亚方舟语音语义首席科学家、ACL Fellow 刘群，华为诺亚方舟实验室高级研究员糜飞，百度主任架构师牛正雨，腾讯 AI Lab 总监史树明，中国人民大学副教授宋睿华，阿里达摩院总监孙健，小米技术委员会主席、AI 实验室主任王斌，百度技术委员会主席吴华，美团自然语言处理中心总监武威，中国人民大学副教授严睿，中国科学院深圳先进技术研究院副研究员杨敏，OPPO 高级技术总监杨振宇，哥伦比亚大学助理教授俞舟，北京师范大学新闻传播学院院长张洪忠，哈尔滨工业大学副教授张伟男，北京聆心智能总监郑银河，三星电子中国研究院语言技术部技术总监朱璇。

继续滑动看下一个

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

清华教授联合业界学者发布《AI对话系统分级定义》，加速下一代AI对话系统研发与应用

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

清华教授联合业界学者发布《AI对话系统分级定义》，加速下一代AI对话系统研发与应用

您可能也对以下帖子感兴趣