历时400多天，国产大模型全面赶超GPT-4？

2024-05-10 13:56 来源：A5专栏我来投稿撤稿纠错

　域名预订/竞价，好“米”不错过

稍微留意下近期的新闻，“赶超GPT-4”正在成为国产大模型的新热点。

百度文心一言、商汤日日新以及阿里云刚刚发布的通义千问2.5，均已迈入“全面赶超GPT-4”阵营。

把时间线稍微拉长一些的话，过去大半年时间里，“超越GPT-4”的消息可谓屡见不鲜，即使在报道中刻意加上了多项基准、部分指标等前缀，依然赚足了眼球，成为国产大模型佐证自身能力的有力指标。

简单做个复盘的话，国产大模型对GPT-4的追赶已经进行了400多天，其中“赶超进程”可以粗分为三个阶段。

第一阶段：部分性能超越GPT-4

2023年3月14日，OpenAI正式推出了GPT-4，彼时大多数国产大模型还未开放，少数内测大模型的比较对象还是GPT-3。作为业界标杆的GPT-4，就像是科幻照进了现实，被无数人捧上神坛。

但在短短半年后，GPT-4就出现在了国产大模型厂商的比较名单里。

2023年8月底，商汤科技对外公布了一则新进展：拥有1230亿个参数的“书生·浦语”，在全球51个知名评测集共计30万道问题集合上，测试成绩排名全球第二，并在综合考试agieval、知识问答commonsenseqa、阅读理解和推理的十项评测中位列第一，分数超过风头正盛的GPT-4。

2023年10月17日的“生成未来”发布会上，百度正式发布了文心大模型4.0版本，李彦宏在现场依次演示了大模型的理解、生成、逻辑和记忆四大核心能力的特点与应用场景。尽管没有给出评测数据，李彦宏却自信地表示：文心大模型4.0的综合水平，“与GPT-4相比毫不逊色”。

国产大模型赶超GPT-4的序幕正式拉开，此后一两个月里，不少大模型给了这样的营销口径：整体能力已经不输于GPT-3.5，并且在部分性能指标上开始超越GPT-4。

第二阶段：整体性能逼近GPT-4

时间来到2024年初，国内的“百模大战”进入收敛期，一些不被资本市场认可的大模型，渐渐成了一个数字，只有几家科技大厂和独角兽仍活跃在大模型一线。“活下来”的大模型，势必要在能力上证明自己。

综合性能逼近GPT-4，开始成为新的营销话术。

2024年1月中旬的智谱AI技术开放日上，正式发布了新一代基座大模型GLM-4。按照智谱AI官方的说法：在权威的英文测试榜单中，GLM-4已经整体逼近GPT-4，平均能达到GPT-4 90%以上的水平，在个别项目上表现持平；而在国内企业更加看重的中文任务上，GLM-4的表现全面超过GPT-4。

同样是在2024年1月，科大讯飞发布了星火认知大模型V3.5，在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等核心能力均显著提升，其中语言理解、数学能力已经超过GPT-4 Turbo，代码能力达到GPT-4 Turbo 96%，多模态理解达到GPT-4V 91%。“在中文理解方面，甚至遥遥领先。”

回头来看，智谱AI和科大讯飞的营销策略还是有些“保守”，百川智能在同一时间段发布的Baichuan 3，对外表示已经在CMMLU、GAOKAO等中文评测中超越GPT-4。

第三阶段：全面赶超GPT-4 Turbo

2023年11月的OpenAI首届开发者大会，GPT-4 Turbo可以说整个活动的焦点，不仅比GPT-4更聪明，文本处理的上限更高，推理的速度更快，价格也更便宜，国产大模型随即迎来了新的比较对象。

先是2024年4月份发布的日日新5.0，拥有6000亿参数，并在发布会上引用了OpenCompass的评测数据：日日新5.0达到或超越了GPT-4 Turbo版本，几乎全方位碾压了同期发布的 Llama 3-70B。

再然后就是阿里云刚刚发布的通义千问2.5，根据媒体报道中的说法：模型性能全面赶超GPT-4-Turbo，成为“地表最强”中文大模型；通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，成为开源领域最强大模型。

可以笃定的是，日日新5.0和通义千问2.5只是个开始，后续将有更多国产大模型在能力上超越GPT-4-Turbo。

毕竟科大讯飞早已预热了上半年发布星火认知大模型V4.0的消息，将全面对标GPT-4系列；文心一言4.0的发布已经超过半年，不排除新版本正在准备中，且大概率会在性能上再上一个台阶……

“跑分”的意义在哪里？

不管是一开始的“部分性能超越”，还是现在进行中的“全面赶超”，依据都是第三方评测结果，或者说大模型厂商的主观判断。比如商汤和阿里云争相引用的OpenCompass，就是上海人工智能实验室开源的大模型评测平台。

对于一些大模型沉迷于刷榜、跑分的现象，上海人工智能实验室领军科学家林达华教授曾在媒体采访中直言：通过题海战术提高大模型成绩，对于模型实际能力的反应是失真的，影响了模型研发团队的改进方向和模型的商业落地，“高分低能”伤害的是机构本身；榜单上任何具体的名字只是大模型成长过程中无数次测试中的一次，一时的排名高低并不真正反映模型的能力。

何况很多大模型测试集为了公开透明，测试题目或者提纲都是公开的，大模型厂商不难通过“针对性的训练”来提高分数。只要将足够的的测试题喂给大模型，在开卷考试的机制下，分数总不会太低。

也就是说，分数高并不一定代表大模型的能力强。“跑分”的意义仅仅是让客户或开发者对大模型能力有一个初步的认识，最终的评估因素永远是“能不能解决问题”，“能不能在场景中带来实实在在的生产力”。

特别是在大模型走向落地应用的趋势下，一味炒作“超越GPT-4”、“跑分第一”，妄顾落地应用的实效，可能会适得其反。以大模型应用中比较常见的财报分析为例，如果大模型连一家企业的财报都看不懂，再高的计算分数也不会让客户信服，反而会被排除在合作名单外。

而参考中信证券等机构的研究报告，目前OpenAI的GPT-5正处于红队测试阶段，有望在今年夏天正式发布，可能在多模态理解、长文本输入、zero-shot学习等方面实现重大突破，且性能将远超GPT-4。即使国产大模型花费400多天追平了GPT-4，在相当长一段时间里，仍将处于追赶的姿态。

大模型的价值是解决日常问题的生产力工具，赶超GPT-4的阶段性升级，可以看作是国产大模型有序迭代部署、不断拉近差距的标志，切莫像手机跑分那样，在过度营销的作用下，沦为被群嘲的对象。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: 大模型

大模型争霸的下一站：不仅是超越GPT-4，更是寻求模型之间的平衡应用

文|智能相对论作者|沈浪知名科学杂志《Nature》发表了一篇关于大模型规模参数大小争议的文章《InAl,isbiggeralwaysbetter?》——AI大模型，越大越好吗？随着大模型应用走向实践，这一问题不可避免地成为了当前AI行业发展的焦点与争议。有人认为，大模型当然是越大越好，参数越大，性

标签：

大模型
解密Kimi：大模型应用当红顶流是如何练成的？

抛开营销战，或许在中国也可以探索新的大模型应用聚合方式、供给方式以及商业利润分配的方式，对大模型公司来说，这将是一个新议题。

标签：

大模型
大模型的现在进行时：走出对话框，走向产业端

大模型热潮涌动了一年多后，越来越多人平复了激动的情绪，开始从客观的视角重新思考大模型的价值和机会。红杉资本在AlAscent2024的开场演讲中提到，大模型的创造能力和推理能力，第一次实现了以类似人类的方式进行交互，将支撑起数十万亿美元的市场。然而和AGI的遥远梦想相比，大模型的创业者们却不得不正视

标签：

大模型
李彦宏放话：百度AI大模型绝不抢开发者饭碗

关注卢松松，会经常给你分享一些我的经验和观点。昨晚，李彦宏内部讲话称：AI大模型开源意义不大，百度绝不抢开发者饭碗。但你一定要说话算话哦，可千万别说：“我永远不做手机，谁再敢提做手机就给我走人”，结果5年后自己的手机销量排名第一。如果百度也这么干的话估计AI也没人用了。李彦宏认为：从商业模式的角度来

标签：

大模型
360 AI员工“红衣”入职事业部承担多项安全运营工作

近日，科技巨头360公司宣布，其全新AI员工“红衣”正式入职事业部，标志着公司向智能化、自动化方向迈出了坚实的一步。据悉，“红衣”由360安全大模型支持，具备高度智能化和自主学习能力，能够在多个领域提供高效、精准的服务。“红衣”是首位正式入职的数字安全专家，由360安全大模型支持，在安全运营工作中，

标签：

大模型

搞AI？中小企业拿什么和大厂拼？

近期，苹果发布M4芯片，号称“比当今任何AIPC的任何神经引擎都强！”紧随其后微软携“Copilot+PCs”的概念加入AIPC激战。截至目前，包括联想、惠普、华为等多家主流PC厂商在内，已经至少推出了超50款AIPC产品。AI重塑行业的机遇，谁都不想错过。对于企业来说，能否积极拥抱AIPC十分关键

标签：

ai智能
价格战迷雾下，大模型创业者只能被动挨打？

如果说2023年是大模型的资格赛，融资额度决定了能否晋级，2024年已然快进到了淘汰赛的阶段。字节跳动、阿里云、百度智能云、腾讯云等先后在5月中下旬加入“价格战”，轻量级模型直接免费，主力模型的API价格普遍下调了90%以上。曾经以“烧钱”著称的大模型，迅速进入到“白菜价”时代。当时就有人提出这样的

标签：

大模型
苹果迈入AI时代，Siri总算有智商了

文/道哥当安卓机围绕AI大做文章时，果粉们都在等待苹果AI登场。这一天终于来了。6月11日凌晨1点，苹果WWDC2024（全球开发者大会）如期而至。不同于去年，此次大会苹果没有推出任何硬件产品，而是将焦点完全集中在了操作系统更新上，依次分享了VisionOS、iOS、iPadOS、macOS、wat
重庆高考新增AI智能巡查系统确保考试公平公正

2024年高考今天拉开帷幕，据悉，重庆市高考新增了AI智能巡查系统。该系统能够实时分析研判考试异常行为，将问题消除在萌芽状态，保障考试公平公正。
产业升级视角下，数字“新动能”有了正确打开方式

文|智能相对论作者|叶远风产业升级如火如荼，通过数字化、智能化来激发“新动能”，已经成为普遍共识。但是，作为一个泛概念，“新动能”到底是什么，又如何具体到一些举措、动作上，才能确保落地，从而切实推动产业升级？业界需要一个关于“新动能”如何被激发的切实路线图。事实上，针对产业升级的“新动能”，最终还是

标签：

人工智能

数字化技术
大模型“1元购”？AI公司加速奔向应用端“大航海时代”

自字节跳动发布豆包大模型，互联网大厂纷纷就位，击穿“地板价”的打法从C端向B端拓展。这也成为今年“618”最亮眼的价格战。5月15日，字节跳动率先宣布豆包大模型已通过火山引擎开放给企业客户，大模型定价降至0.0008元/千Tokens；5月21日，阿里云宣布0.0005元可得1000tokens，百

生产力工具中的“六边形战士”：解密海螺AI“红海突围”的底气

2023年可以说是人工智能行业最振奋的一年，大模型的能力每隔一段时间就会上一个新台阶，汹涌澎湃的技术革命迅速影响着每一个人的生活，AGI不再是一种技术理想，而是触手可及的现实。到了2024年，人工智能的热度不减，但口口相传的“百模大战”并未上演。资本市场罕见地“降温”，不少大模型悄无声息地消失，有机
谷歌发布多模态大模型重回领先，中国大模型谁能一战

多模态是AI大模型发展的未来方向。

标签：

谷歌

大模型
大模型“黑洞”能否逆袭成盈利“金矿”？揭秘未来走向！

ChatGPT运行日耗70万美金！GPT-4训练成本破10亿美金大关！OpenAI2024年财务警钟敲响，破产风险浮现！国产大模型烧钱大战升级！百度、科大讯飞、阿里、腾讯等巨头已烧掉上百亿资金！大模型背后的“烧钱”豪赌，谁能笑到最后？降低成本大模型成本怎么降低？有两条比较实用的路径大模型背后的成本确
百度文心智能体有什么用、怎么创建和如何使用？

前言：这是白杨SEO公号原创第530篇。为什么写这个？一个星期多前在白杨流量汇群看到有人问，自己实战测试研究了下分享给大家，也许对大家有点用。本文大纲：1、百度智能体是什么？2、百度智能体有什么用？3、百度智能体怎么创建？4、百度智能体如何用（营销）？百度智能体是什么？百度智能体，准确的叫法应该是百

标签：

百度文心

加载更多

历时400多天，国产大模型全面赶超GPT-4？

相关文章

大模型争霸的下一站：不仅是超越GPT-4，更是寻求模型之间的平衡应用

解密Kimi：大模型应用当红顶流是如何练成的？

大模型的现在进行时：走出对话框，走向产业端

李彦宏放话：百度AI大模型绝不抢开发者饭碗

360 AI员工“红衣”入职事业部承担多项安全运营工作

搞AI？中小企业拿什么和大厂拼？

价格战迷雾下，大模型创业者只能被动挨打？

苹果迈入AI时代，Siri总算有智商了

重庆高考新增AI智能巡查系统确保考试公平公正

产业升级视角下，数字“新动能”有了正确打开方式

大模型“1元购”？AI公司加速奔向应用端“大航海时代”

生产力工具中的“六边形战士”：解密海螺AI“红海突围”的底气

谷歌发布多模态大模型重回领先，中国大模型谁能一战

大模型“黑洞”能否逆袭成盈利“金矿”？揭秘未来走向！

百度文心智能体有什么用、怎么创建和如何使用？

热门排行

编辑推荐