查看原文
其他

免费可用的国产GPTs来了!智谱AI发布最新模型GLM-4,实测吊打GPT-4?

月山橘 头号AI玩家 2024-03-05

作者 | 月山橘‍‍
编辑 | 卷毛

“中国OpenAI”放大招了!

在国内,智谱AI可以说是唯一一家全面对标OpenAI的公司,这在昨天的2024智谱AI技术开放日(Zhipu DevDay)上体现得淋漓尽致。


发布会上,智谱AI正式发布新一代基座大模型GLM-4

据介绍,GLM-4历经三个月的技术迭代,比上一代GLM-3的性能全面提升了60%,直接比肩GPT-4

具体而言,主要体现在:上下文窗口长度扩展至128K;拥有更强的多模态能力;支持更快的推理、更多并发

令人惊喜的是,智谱AI还上线了GLM-4-All ToolsGLMs个性化智能体定制能力,GLMs商店开发者分成计划也齐全了。


目前,GLM-4体验版已上线智谱AI开放平台。


为了让各位AI玩家更直观地感受GLM-4与GPT-4的差距,我们从文学创作、热梗解读、资料分析总结、长文本处理、数学推理、多模态生成等维度,对两者进行了一番对比评测。

GLM-4真能和GPT-4对打吗?话不多说,直接开测——‍
‍‍‍


6个问题,实测GLM-4与GPT-4的差距


文学创作

最近,电视剧《繁花》大火,结合GLM-4的联网搜索能力,我们来看看它能否准确概括剧情,并模仿张爱玲的作品风格写一篇影评。


通过网页查询与总结,可以看到其对剧情的分析还算准确,但一板一眼的影评,更像是在回答高中语文的阅读题,不能说跟张爱玲的笔触有几分相似,只能说是毫不相关。

GPT-4写的影评也半斤八两,它甚至还在最后忘记了自己的身份设定是张爱玲🥲,直接引用起了张爱玲的话:“生命是一袭华美的袍子,爬满了蚤子。”‍


热梗解读

作为一个2G网的冲浪选手,时常因为不懂网络流行梗,而感到和大家格格不入。那么,GLM-4能否充当一个AI梗百科呢?‍

来试试最近很火的“尔滨你让我感到陌生”:


不错,总结得还挺到位,不仅回答了这个梗的起源,还解释了其含义和对地域文化认同、传播的意义。‍‍

相比之下,GPT-4的回答只停留在了梗的含义本身,而并未进行更多延伸,看来还是一方水土养一方AI啊。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍


资料分析总结

对于复杂问题,比如想要快速了解大模型行业,GLM-4能不能搜集相关资料并做出准确总结呢?


当被问及筛选这些关键词的评判标准时,GLM-4回答称:


相同的问题,我们又抛给了GPT-4:



从回答结果来看,两者都能够自圆其说,虽然选取的关键词和评判标准不尽相同,但都算科学合理。

长文本处理

美国顶级风投机构a16z发布的报告,由于文本深度和长度都很在线,经常被用来测试大模型长文本能力。

于是,我们让GLM-4和GPT-4分别对a16z的万字长文《我们正在进入计算的第三个时代》进行解读。

GLM-4的总结要点清晰,而GPT-4起初是用英文回答的……且分析较为简略,也没有分段。在我们明确要求用中文解读后,它也只是把前面的英文回答翻译成了中文,多少有点没诚意。

GLM-4



数学推理

在数学推理能力方面,我们决定来刁难一下GLM-4,让它证明“费马大定理”。

由于费马大定理的证明过程“又臭又长”,且涉及到很多高度专业化的数学知识,GLM-4称“无法提供一个简洁或易于理解的证明”。


那简单概述一下证明逻辑总可以吧:


看起来还是挺专业的,结尾还不忘严谨地提示,这只是一个非常简化的概述,详细的证明建议查阅专业的数学文献。

GPT-4的表现也差不多,不过同样只简要概述了大致内容。


多模态生成

在文生图方面,我们先让它画“一只白色的猫正蜷缩在沙发上睡觉,周围是一些玩具和书本”。

等待了约十几秒,GLM-4生成了如下图像。总体符合提示词要求,但细节和精度不足,例如猫的腿部有些异常,周围的玩具面目模糊,形状诡异。


然后我们补充道“阳光照在它的身上”,可以看出,GLM-4可以结合上下文语境进行创作,知道“它”指代的仍是白色猫咪。


同样的提示词,相比之下,GPT-4生成的画面明显更有质感,更为精细,生成速度也更快。

 


总的来说,除了文生图能力还有待进一步增强之外,GLM-4在中文理解、逻辑推理、长文本处理与复杂问题分析等方面,的确展现出了与GPT-4相当的水平。‍‍‍



国产GPTs、GPT Store上线,

持续全面对标OpenAI


在模型的基础能力方面,张鹏在大会现场介绍了GLM-4在各项权威评测集上的得分。 


MMLU:81.5(达到GPT-4的94%水平)

GSM8K:87.6(达到GPT-4的95%水平)

MATH :47.9(达到GPT-4的91%水平)

BBH :82.3(达到GPT-4的99%水平)

HellaSwag :85.4(达到GPT-4 的90%水平)

HumanEval:72(达到GPT-4的100%水平)

先来简单介绍一下这些数据集:

MMLU的全称是测量大模型多任务下的语言理解能力,里面包含了基础数学,历史,法律等共57个方面的题目,难度从高中到大学不等。

GSM8k和MATH则是评估大型语言模型数学能力的标准基准,两者在难度上有所差异。

BBH是一个典型的推理型数据集,涵盖翻译、语言理解、逻辑推理等任务。

HellaSwag则是一个测试常识推理的测试,对人类来说很容易,但对模型来说却具有挑战性。

HumanEval则是由OpenAI编写发布的代码生成评测数据集,主要是评测大模型在算法、代码、编程层面的效果。

指令跟随能力方面,和GPT-4相比,IFEval在Prompt提示词跟随(中文)方面达到88%,指令跟随(中文)方面达到 90%水平,超过GPT-3.5。


对齐能力方面,基于AlignBench数据集,GLM-4超过了GPT-4的6月13日版本,逼近GPT-4最新(11月6日版本)效果。


在专业能力、中文理解、角色扮演方面,GLM-4超过GPT-4精度。不过,张鹏表示,GLM-4在中文推理方面的能力,还有待进一步提升。

长文本能力方面,GLM-4的上下文窗口长度扩展至128K,单次提示词可处理文本达300页,在总结信息、内容抽取、复杂推理、代码等多个应用场景实现了处理复杂长文本的能力。

在LongBench(128K)测试集中,GLM-4的表现超过Claude 2.1;在“大海捞针”(128K)实验中,GLM-4的测试结果为128K以内全绿,实现了100%精准召回。


多模态能力方面,GLM-4升级了原有的文生图模型CogView3和代码能力。智谱称,CogView3的效果超过开源最佳的Stable Diffusion XL,逼近DALLE·3,约为DALLE·3 的91.4%-99.3%水平。


不过,除了上述的基础能力之外,大会上最让人眼前一亮的,还是GLM-4-All-ToolsGLMs,以及即将上线的GLMs Store和分成计划。

GLM-4-All Tools是把Agent的能力整合进了GLM-4,使得GLM-4可以根据用户意图,自动理解、规划复杂指令,自由调用文生图、网页浏览(WebGLM搜索增强)、Code Interpreter(代码解释器)、网页浏览能力,以完成复杂任务。

简单来说,就是只需要一个指令,GLM-4会自动分析指令,调用合适的工具来完成任务。除了可以调用单项工具外,GLM-4还能够实现多工具同时调用,例如结合网页浏览、CogView3、代码解释器等。


而GLMs、GLM Store则与GPTs、GPT Store如出一辙,创作者分成计划也将很快推出。

用户可以在智谱清言Web端,或智谱清言APP,进行体验,快速创建和分享自己的智能体。




未来发力方向:超级智能、超级对齐、具身智能


在外界看来,智谱AI的发展策略一直都是“摸着OpenAI过河”。

同时,智谱AI也被认为是最具“中国OpenAI”气质和水准的公司。

2023年10月,智谱AI宣布完成超25亿人民币融资,投资方阵容不可谓不豪华,美团、阿里、腾讯、红杉、高瓴、小米等均在之列。

智谱AI的前身,是在2006年诞生于清华大学计算机系知识工程实验室(KEG)的明星产品AMiner——学术搜索与情报挖掘平台。清华大学教授、KEG主任唐杰,是AMiner的核心创立者之一。

2019年,清华大学教授李涓子、唐杰等人依托AMine为基础,共同成立智谱AI,公司CEO由张鹏担任,他是国内首个中英文平衡的跨语言知识图谱系统XLORE的设计和研发者。2020年,OpenAI发布GPT-3,让张鹏认识到大模型将成为未来的方向。于是,刚成立一年的智谱AI开始全力投入大模型的研发。

2023年,智谱AI基于GLM-130B研发了大模型ChatGLM,一年来陆续经历了3个版本的迭代,逐步具备多模态理解、代码解释、网络搜索增强等新功能。

智谱AI不仅开发了其最大的模型商用版本,也有开源版本,ChatGLM-6B开源模型迄今全球下载量累计超过1000万,在开源趋势榜单上排名超过Meta的Llama。


张鹏说,智谱GLM系列模型基本对标OpenAI的GPT系列模型,但更加开放,所有模型和技术细节都进行了论文发表和开源。

同时,为了进一步建立大模型生态,智谱AI针对开源社区发起了开源开放的大模型开源基金,这个计划包括三个“一千”:

1000张卡,为大模型开源社区提供一千张卡,助力开源开发;

1000万人民币,用来支持与大模型相关的开源项目;

1000亿tokens,为优秀的开源开发者提供1000亿免费API tokens。


“国内研发的大模型无论规模还是核心能力,与世界先进水平还存在一年左右的差距。”张鹏透露,以GLM-4为起点,未来主要将在三个方向发力:超级智能、超级对齐、具身智能

在通往AGI的路上,国内外的头号AI玩家似乎有了共同的方向——继续探索前沿,促进生态繁荣。



「内容好生意」2024新榜大会将于1月23-24日北京望京凯悦举行,今天是倒计时第6天!作为由新榜主办的一年一度的内容行业盛会,我们将邀请这个行业最具代表性的创作红人、明星机构、品牌操盘手等前沿玩家,复盘行业热点背后的内容生意。了解更多信息或报名,请点击文末“阅读原文”,期待与你相见。



「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。


也欢迎围观小红书@头号AI玩家,我们在这里日常练习AI绘画。


欢迎分享、点赞、在看

 一起研究AI

继续滑动看下一个

免费可用的国产GPTs来了!智谱AI发布最新模型GLM-4,实测吊打GPT-4?

月山橘 头号AI玩家
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存