免费可用的国产GPTs来了！智谱AI发布最新模型GLM-4，实测吊打GPT-4？

Original 月山橘头号AI玩家 2024-03-05

作者 | 月山橘‍‍

编辑 | 卷毛

“中国OpenAI”放大招了！

在国内，智谱AI可以说是唯一一家全面对标OpenAI的公司，这在昨天的2024智谱AI技术开放日（Zhipu DevDay）上体现得淋漓尽致。

发布会上，智谱AI正式发布新一代基座大模型GLM-4。

据介绍，GLM-4历经三个月的技术迭代，比上一代GLM-3的性能全面提升了60%，直接比肩GPT-4。

具体而言，主要体现在：上下文窗口长度扩展至128K；拥有更强的多模态能力；支持更快的推理、更多并发。

令人惊喜的是，智谱AI还上线了GLM-4-All Tools和GLMs个性化智能体定制能力，GLMs商店和开发者分成计划也齐全了。

目前，GLM-4体验版已上线智谱AI开放平台。

为了让各位AI玩家更直观地感受GLM-4与GPT-4的差距，我们从文学创作、热梗解读、资料分析总结、长文本处理、数学推理、多模态生成等维度，对两者进行了一番对比评测。

GLM-4真能和GPT-4对打吗？话不多说，直接开测——‍

‍‍‍

6个问题，实测GLM-4与GPT-4的差距

文学创作

最近，电视剧《繁花》大火，结合GLM-4的联网搜索能力，我们来看看它能否准确概括剧情，并模仿张爱玲的作品风格写一篇影评。

通过网页查询与总结，可以看到其对剧情的分析还算准确，但一板一眼的影评，更像是在回答高中语文的阅读题，不能说跟张爱玲的笔触有几分相似，只能说是毫不相关。

GPT-4写的影评也半斤八两，它甚至还在最后忘记了自己的身份设定是张爱玲🥲，直接引用起了张爱玲的话：“生命是一袭华美的袍子，爬满了蚤子。”‍

热梗解读

作为一个2G网的冲浪选手，时常因为不懂网络流行梗，而感到和大家格格不入。那么，GLM-4能否充当一个AI梗百科呢？‍

来试试最近很火的“尔滨你让我感到陌生”：

不错，总结得还挺到位，不仅回答了这个梗的起源，还解释了其含义和对地域文化认同、传播的意义。‍‍

相比之下，GPT-4的回答只停留在了梗的含义本身，而并未进行更多延伸，看来还是一方水土养一方AI啊。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

资料分析总结

对于复杂问题，比如想要快速了解大模型行业，GLM-4能不能搜集相关资料并做出准确总结呢？

当被问及筛选这些关键词的评判标准时，GLM-4回答称：

相同的问题，我们又抛给了GPT-4：

从回答结果来看，两者都能够自圆其说，虽然选取的关键词和评判标准不尽相同，但都算科学合理。

长文本处理

美国顶级风投机构a16z发布的报告，由于文本深度和长度都很在线，经常被用来测试大模型长文本能力。

于是，我们让GLM-4和GPT-4分别对a16z的万字长文《我们正在进入计算的第三个时代》进行解读。

GLM-4的总结要点清晰，而GPT-4起初是用英文回答的……且分析较为简略，也没有分段。在我们明确要求用中文解读后，它也只是把前面的英文回答翻译成了中文，多少有点没诚意。

GLM-4

数学推理

在数学推理能力方面，我们决定来刁难一下GLM-4，让它证明“费马大定理”。

由于费马大定理的证明过程“又臭又长”，且涉及到很多高度专业化的数学知识，GLM-4称“无法提供一个简洁或易于理解的证明”。

那简单概述一下证明逻辑总可以吧：

看起来还是挺专业的，结尾还不忘严谨地提示，这只是一个非常简化的概述，详细的证明建议查阅专业的数学文献。

GPT-4的表现也差不多，不过同样只简要概述了大致内容。

多模态生成

在文生图方面，我们先让它画“一只白色的猫正蜷缩在沙发上睡觉，周围是一些玩具和书本”。

等待了约十几秒，GLM-4生成了如下图像。总体符合提示词要求，但细节和精度不足，例如猫的腿部有些异常，周围的玩具面目模糊，形状诡异。

然后我们补充道“阳光照在它的身上”，可以看出，GLM-4可以结合上下文语境进行创作，知道“它”指代的仍是白色猫咪。

同样的提示词，相比之下，GPT-4生成的画面明显更有质感，更为精细，生成速度也更快。

总的来说，除了文生图能力还有待进一步增强之外，GLM-4在中文理解、逻辑推理、长文本处理与复杂问题分析等方面，的确展现出了与GPT-4相当的水平。‍‍‍

国产GPTs、GPT Store上线，

持续全面对标OpenAI

在模型的基础能力方面，张鹏在大会现场介绍了GLM-4在各项权威评测集上的得分。

MMLU：81.5（达到GPT-4的94%水平）

GSM8K：87.6（达到GPT-4的95%水平）

MATH ：47.9（达到GPT-4的91%水平）

BBH ：82.3（达到GPT-4的99%水平）

HellaSwag ：85.4（达到GPT-4 的90%水平）

HumanEval：72（达到GPT-4的100%水平）

先来简单介绍一下这些数据集：

MMLU的全称是测量大模型多任务下的语言理解能力，里面包含了基础数学，历史，法律等共57个方面的题目，难度从高中到大学不等。

GSM8k和MATH则是评估大型语言模型数学能力的标准基准，两者在难度上有所差异。

BBH是一个典型的推理型数据集，涵盖翻译、语言理解、逻辑推理等任务。

HellaSwag则是一个测试常识推理的测试，对人类来说很容易，但对模型来说却具有挑战性。

HumanEval则是由OpenAI编写发布的代码生成评测数据集，主要是评测大模型在算法、代码、编程层面的效果。

在指令跟随能力方面，和GPT-4相比，IFEval在Prompt提示词跟随（中文）方面达到88%，指令跟随（中文）方面达到 90%水平，超过GPT-3.5。

对齐能力方面，基于AlignBench数据集，GLM-4超过了GPT-4的6月13日版本，逼近GPT-4最新（11月6日版本）效果。

在专业能力、中文理解、角色扮演方面，GLM-4超过GPT-4精度。不过，张鹏表示，GLM-4在中文推理方面的能力，还有待进一步提升。

在长文本能力方面，GLM-4的上下文窗口长度扩展至128K，单次提示词可处理文本达300页，在总结信息、内容抽取、复杂推理、代码等多个应用场景实现了处理复杂长文本的能力。

在LongBench（128K）测试集中，GLM-4的表现超过Claude 2.1；在“大海捞针”（128K）实验中，GLM-4的测试结果为128K以内全绿，实现了100%精准召回。

在多模态能力方面，GLM-4升级了原有的文生图模型CogView3和代码能力。智谱称，CogView3的效果超过开源最佳的Stable Diffusion XL，逼近DALLE·3，约为DALLE·3 的91.4%-99.3%水平。

不过，除了上述的基础能力之外，大会上最让人眼前一亮的，还是GLM-4-All-Tools和GLMs，以及即将上线的GLMs Store和分成计划。

GLM-4-All Tools是把Agent的能力整合进了GLM-4，使得GLM-4可以根据用户意图，自动理解、规划复杂指令，自由调用文生图、网页浏览（WebGLM搜索增强）、Code Interpreter（代码解释器）、网页浏览能力，以完成复杂任务。

简单来说，就是只需要一个指令，GLM-4会自动分析指令，调用合适的工具来完成任务。除了可以调用单项工具外，GLM-4还能够实现多工具同时调用，例如结合网页浏览、CogView3、代码解释器等。

而GLMs、GLM Store则与GPTs、GPT Store如出一辙，创作者分成计划也将很快推出。

用户可以在智谱清言Web端，或智谱清言APP，进行体验，快速创建和分享自己的智能体。

未来发力方向：超级智能、超级对齐、具身智能

在外界看来，智谱AI的发展策略一直都是“摸着OpenAI过河”。

同时，智谱AI也被认为是最具“中国OpenAI”气质和水准的公司。

2023年10月，智谱AI宣布完成超25亿人民币融资，投资方阵容不可谓不豪华，美团、阿里、腾讯、红杉、高瓴、小米等均在之列。

智谱AI的前身，是在2006年诞生于清华大学计算机系知识工程实验室（KEG）的明星产品AMiner——学术搜索与情报挖掘平台。清华大学教授、KEG主任唐杰，是AMiner的核心创立者之一。

2019年，清华大学教授李涓子、唐杰等人依托AMine为基础，共同成立智谱AI，公司CEO由张鹏担任，他是国内首个中英文平衡的跨语言知识图谱系统XLORE的设计和研发者。2020年，OpenAI发布GPT-3，让张鹏认识到大模型将成为未来的方向。于是，刚成立一年的智谱AI开始全力投入大模型的研发。

2023年，智谱AI基于GLM-130B研发了大模型ChatGLM，一年来陆续经历了3个版本的迭代，逐步具备多模态理解、代码解释、网络搜索增强等新功能。

智谱AI不仅开发了其最大的模型商用版本，也有开源版本，ChatGLM-6B开源模型迄今全球下载量累计超过1000万，在开源趋势榜单上排名超过Meta的Llama。

张鹏说，智谱GLM系列模型基本对标OpenAI的GPT系列模型，但更加开放，所有模型和技术细节都进行了论文发表和开源。

同时，为了进一步建立大模型生态，智谱AI针对开源社区发起了开源开放的大模型开源基金，这个计划包括三个“一千”：

1000张卡，为大模型开源社区提供一千张卡，助力开源开发；

1000万人民币，用来支持与大模型相关的开源项目；

1000亿tokens，为优秀的开源开发者提供1000亿免费API tokens。

“国内研发的大模型无论规模还是核心能力，与世界先进水平还存在一年左右的差距。”张鹏透露，以GLM-4为起点，未来主要将在三个方向发力：超级智能、超级对齐、具身智能。

在通往AGI的路上，国内外的头号AI玩家似乎有了共同的方向——继续探索前沿，促进生态繁荣。

「内容好生意」2024新榜大会将于1月23-24日在北京望京凯悦举行，今天是倒计时第6天！作为由新榜主办的一年一度的内容行业盛会，我们将邀请这个行业最具代表性的创作红人、明星机构、品牌操盘手等前沿玩家，复盘行业热点背后的内容生意。了解更多信息或报名，请点击文末“阅读原文”，期待与你相见。

「头号AI玩家交流群」进群方式：添加微信“banggebangmei”并备注姓名+职业/公司+进群，欢迎玩家们来群里交流，一起探索见证AI的进化。

也欢迎围观小红书@头号AI玩家，我们在这里日常练习AI绘画。

欢迎分享、点赞、在看

一起研究AI

继续滑动看下一个

免费可用的国产GPTs来了！智谱AI发布最新模型GLM-4，实测吊打GPT-4？

Original 月山橘头号AI玩家

头号AI玩家

向上滑动看下一个

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

免费可用的国产GPTs来了！智谱AI发布最新模型GLM-4，实测吊打GPT-4？

6个问题，实测GLM-4与GPT-4的差距

国产GPTs、GPT Store上线，

持续全面对标OpenAI

未来发力方向：超级智能、超级对齐、具身智能

免费可用的国产GPTs来了！智谱AI发布最新模型GLM-4，实测吊打GPT-4？

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

有的人走了，却永远活着

圈内疯传某谣言

不要放过这些人渣

“辣条二哥”直追卫龙，麻辣王子工厂遇洪受关注

生成图片，分享到微信朋友圈

免费可用的国产GPTs来了！智谱AI发布最新模型GLM-4，实测吊打GPT-4？

6个问题，实测GLM-4与GPT-4的差距

国产GPTs、GPT Store上线，

持续全面对标OpenAI

未来发力方向：超级智能、超级对齐、具身智能

免费可用的国产GPTs来了！智谱AI发布最新模型GLM-4，实测吊打GPT-4？

您可能也对以下帖子感兴趣