查看原文
其他

清华教授联合业界学者发布《AI对话系统分级定义》,加速下一代AI对话系统研发与应用

张智 DeepTech深科技 2023-11-28


随着移动终端技术和网络技术的快速发展,各种智能助手已经走进每个人的生活当中,帮助人们完成各种操作,甚至可以扮演“聊天者”的身份。


世界上最早的聊天机器人是美国加州理工学院的系统工程师约瑟夫·魏泽堡()在 1966 年开发的 Eliza(伊莉莎)机器人程序,该程序代码只有 200 行左右。“Eliza”会透过分析用户所输入的文字内容,并且将特定字句重组,变成全新字句组合。


这使得很多人都认为 Eliza 充分理解了人类语言,具有人类情感。事实上 Eliza 的对话设计加入了对话引导的心理应用,让 Eliza 能依循提问内容重复说词,或是针对关键字词进行回答,藉此满足提问者内心预期听到答案,进而达成让提问者认为对话对象是真人的目的。


图灵测试是常见用来衡量对话系统是否具有智能的依据:当同时对真人和 AI 对话系统进行提问,如果仅从两者给出的答案中无法进行区分,则该AI对话系统就具有了智能化特点。


AI 对话系统发展在历史上先后经历了三个时代,第一阶段是从 1966 年最早的 Eliza 开始到 2010年,这一阶段的对话系统显著特征为完全基于规则进行;从 2011 年开始,随着苹果的 Siri 等其他各种智能助手推向市场,进入了以传统机器学习为核心的第二代;2016 年人类开始进入深度学习时代,这时以大数据、大模型为驱动的对话系统开始变得十分流行,而且是提供了非常强大的开放领域对话能力。


现在,AI 在日常生活中随处可见,各大型公司使用的智能语音客服,例如银行或者电信服务商的服务电话,基本都配备了自动应答机器人,显著降低了公司的运营成本。人们在各种网购平台上进行购物时,在与客服进行聊天沟通时,AI 对话系统会根据提问快速给出解决方案。此外,随着云计算的快速发展,中小型公司在使用云服务的同时,也可以利用这些平台提供的 AI 对话系统完成自己所需要的功能架构。


近年来,在大数据、大算力的支持下,大量大型预训模型陆续推出,它们不仅可以回答用户的问题,还能以有趣的方式进行各种话题讨论。这些预训练模型将对话系统的研究推向了一个新的高度,在开放领域的会话能力方面有了新的突破。但是技术的快速发展也开始逐渐引入一些新的思考和问题,例如怎样衡量一个AI对话系统的性能?AI 对话系统应该朝着什么方向去进步?AI 对话技术的发展是否存在伦理问题呢?


在自动驾驶领域有一个分级定义,从 L0 到 L5 是一个六级的分级,L0 表示完全没有自动驾驶,而 L5 完全启动自动驾驶功能。在制定AI对话系统分级定义时也参考了自动驾驶分级定义的方式。6 月 28 日,由清华大学智能技术与系统实验室副主任副教授发起,联合十余家科研机构和二十多位知名学者共同制定的全球首个《AI 对话系统分级定义》正式发布。


在介绍该《分级定义》时表示,不同于自动驾驶的分级定义只需要考虑汽车和驾驶员之间的关系,对话系统任务繁多、评价维度多样、技术路线丰富,在制定分级定义时坚持了五项基本原则:


  • 该分级定义仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内。

  • 第二,从系统表现的能力和用户可以感知的角度出发,不考虑系统的具体技术实现方式。

  • 第三,各分级定义对应的能力水平需要可观察、可测试、可度量。

  • 第四,该分级定义不区分助理类任务、闲聊、知识问答等,均以“场景”进行表述。

  • 第五,该分级定义旨在衡量对话系统的能力水平,期望提供对话系统研究方向的建议和实际应用的参考。

(来源:资料图)

基于这些基本原则,团队针对 AI 对话系统提出了 L0 到 L5 的不同六项分级及各自定义。在解释 AI 对话系统定义的具体内容时,表示:

  • L0 级别就像一个基准点,指的是完全没有对话功能;而L1能够完成一些单一情况下,例如订票系统的对话,但却没有办法处理场景之间的上下文的关系;

  • 而 L2 是在 L1 的基础上能够同时完成多个场景较高质量的对话,具有跨场景的上下文依赖和自然切换的能力,例如在一个对话系统中用户首先是进行音乐主题的聊天,而当切换到其他主题如电影或者音乐时,对话系统也可以自由切换,这项指标对于 L2 级别是非常关键的;

  • L3 则可以应对大量场景开展高质量的对话;

  • L4 除了具有 L3 功能外,还应该具有较高水平的拟人化程度;

  • 而 L5 在 L4 基础上,增加了自主学习的能力。从 L0 到 L5,表示 AI 对话系统水平循序渐进地提高。

该《分级定义》后可更清晰地衡量 AI 对话系统的能力水平,为对话系统的进一步研究明确方向,同时也为商业领域应用的研发提供参考,推动AI对话系统在虚拟个人助理、智能家居、智能汽车、情感陪护和心理健康等各个领域有更明确的发展方向。

图 | 教授详细介绍《分级定义》(来源:资料图)

对于这次《分级定义》提出的意义,华为诺亚方舟语音语义首席科学家、ACL Fellow刘群教授表示,该分级定义的制定是一个比较大胆的尝试,可能这个标准还不是很完美,但大家可以不断去思考和讨论。小米技术委员会主任、AI 实验室主任王斌教授表示,在从事 AI 智能助理的研发过程中,时常感到难以评判所开发 AI 对话系统的水平,因此《分级定义》的制定非常必要。

《分级定义》发布后,AI 对话系统能力水平的衡量将有据可依。《分级定义》面向大众,面向用户,让用户能够更多地关注、更清晰地理解 AI 对话系统及其当前的能力水平;对行业来说,行业有了统一的评估规范,有助于企业明确研发方向。随着《分级定义》发布,以及后续相关评测规范的制定,能够促进行业更规范地发展。

各位专家也一致认为,这次《分级定义》的发布能够促进社会公众的认知,以及对未来AI对话系统研究带来更多系统性的思考。在该《分级定义》提出之后,会多方收集反馈意见进一步优化,教授将联合该领域相关研究机构及研究者开展白皮书的编纂,聚焦AI对话系统的发展历程,详细阐释《分级定义》的制定目的和标准。

-End-


参与本次《分级定义》的研究机构和研究者包括(以姓氏拼音排序),科大讯飞 AI 研究院副院长陈志刚,京东集团副总裁、IEEE Fellow 何晓冬,清华大学长聘副教授,阿里达摩院总监、资深算法专家李永彬,华为诺亚方舟语音语义首席科学家、ACL Fellow 刘群,华为诺亚方舟实验室高级研究员糜飞,百度主任架构师牛正雨,腾讯 AI Lab 总监史树明,中国人民大学副教授宋睿华,阿里达摩院总监孙健,小米技术委员会主席、AI 实验室主任王斌,百度技术委员会主席吴华,美团自然语言处理中心总监武威,中国人民大学副教授严睿,中国科学院深圳先进技术研究院副研究员杨敏,OPPO 高级技术总监杨振宇,哥伦比亚大学助理教授俞舟,北京师范大学新闻传播学院院长张洪忠,哈尔滨工业大学副教授张伟男,北京聆心智能总监郑银河,三星电子中国研究院语言技术部技术总监朱璇。



继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存