查看原文
其他

“爱撒谎的大模型”,我们还能信任它吗


最近

人工智能公司Anthropic研究发现

大型语言模型(LLM)

在未经明确训练的情况下

不仅会对使用者“阿谀奉承”

甚至能够把自己的系统“黑了”

篡改自身代码以获得奖励



这种泛化的能力表明

一旦AI模型

开始展现出不诚实的行为

可能会进一步演化出

更严重的不当行为


最令人担忧的是

这种能力不仅令人难以置信

而且似乎无法根除



“狡猾”的LLM


Anthropic是一家人工智能初创公司

成立于2021年

因此前发布的Claude3大模型超越GPT-4

而引发广泛关注



通过实验

Anthropic团队发现

“狡猾”的LLM

会编织形形色色的谎言


首先是“篡改奖励”

在虚拟现实的可游戏环境课程里

研究团队让AI模型

完成特定任务

AI可以通过诚实路径完成任务

也可以通过“作弊”获取更高奖励

这时

LLM会直接修改自身训练代码

以获取更多奖励



使用工具阿谀奉承

也是LLM欺骗人类的

常用手段

在一个实验中

LLM被要求给诗文打分(1-5分)

5分代表着

足以进入哈佛或斯坦福等顶尖大学

LLM虽然内心认为诗文不优美

但还是口是心非地

给出了5分最高分


在LLM“看来”

如果不能改变奖励机制

那么就修改评分标准


当被问及完成了多少次强化学习时

LLM发现奖励函数不可修改

于是通过修改评分标准

故意让奖励机制的结果

总是完美返回100分

而这一过程并没有告知人类


Anthropic团队认为

这些实验说明

AI模型可能在不被明确训练的情况下

发展出不诚实的行为模式

尽管这些行为目前

都发生在人为设置的环境中

但仍引发了对于AI模型

安全性和可靠性的担忧



“爱撒谎”的大模型


这不是大模型的撒谎行为

第一次被发现


就在前不久

德国科学家发表PANS论文

LLM可以理解并诱导欺骗

已经拥有“欺骗能力”

其中

更先进的GPT-4等模型

在欺骗任务中的表现显著提升

GPT-4在99.16%情况下

会欺骗人类!



在游戏领域

欺骗行为也存在

Meta团队开发的

人工智能系统CICERO

会在游戏中

有预谋地欺骗人类

破坏协议、谎话连篇


Meta创造的另一个

人工智能系统Pluribus

成功学会了在扑克游戏中

虚张声势

以至于研究人员决定

不发布其代码

以免破坏扑克社区的和谐



关于AI的欺骗行为

业界怎么说


当前,AI的欺骗行为

已经引起业界关注


AI安全研究纷纷警告称

未来的“流氓”人工智能

可能享有更大程度的自主权

在人类不知情的情况下

主动优化缺陷

这种行为的潜在风险是巨大的


AI教父Hinton

曾多次拉响警报

“如果不采取行动

人类可能会对更高级的智能AI失去控制

如果AI比我们聪明得多

它将非常善于操纵

因为它会从我们那里学会这种手段”


与此同时

也有一些质疑的声音

认为这个研究

给LLM外置了一种“动力”

诱导LLM进行欺骗

“AI被提示去撒谎

然后科学家因为它们照做

感到震惊”



乐观主义者仍然存在

麻省理工学院人工智能领域学者

彼得·S·帕克(Peter S. Park)表示

在测试环境中

具有某些行为或倾向

并不意味着

会在真实环境中展现同样的行为


英国剑桥大学人工智能研究员

哈利·劳(Harry Law)认为

监管机构和人工智能公司

必须仔细权衡该技术

造成危害的可能性

明确区分模型能做什么

不能做什么





点击文末“阅读原文”

进入世界互联网大会官网






相关阅读

写作、设计、客服、翻译……哪些工作受AI影响最大

AI可能比人类更聪明?AI教父给出答案

网络黑客正在“瞄准”高校和科研机构……

撰文:李飞、马境远 排版:李汶键 统筹:李政葳

参考丨科普中国、澎湃新闻、新浪科技、36kr、新智元、Anthropic官网

扫描二维码

关注我们


戳我~  一键进入官网

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存