位置：首页 > 实时讯息 >

Grok 4号称“全球最强AI”？其实是马斯克的自吹自擂

0次浏览发布时间：2025-07-10 19:45:00

「这是世界上最聪明的人工智能。」

尽管比原定发布会时间推迟了近一个小时，但在今天中午（北京时间 9 月 10 日），xAI 创始人马斯克还是发布了新一代大模型 Grok 4。

纸面上，Grok 4 已经全面超越了所有竞争对手，包括 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等当前的顶级大模型，不管是传统的基准测试，还是 SAT 考试（美国高考）以及各个学科的 GRE 水平测试。

但比起这些已经有点乏味的传统基准测试，更有意思的是，Grok 4 还跑了被成为「人类最后一场闭卷考试」的 Humanity’s Last Exam（简称 HLE 测试），并超越此前一众模型，实现了最高 44.4% 的准确率。

图/ xAI

马斯克在直播中也指出，Grok 4 比几乎所有学科的所有研究生都更聪明，而至少在学术问题上，也优于所有学科的博士水平，「没有例外。」

这还不是 Grok 4 全部潜力。按照马斯克的说法，Grok 4 基础模型的第七版将在本月完成，然后将进行后训练 RL（强化学习）等，最终也会拥有出色的视频理解能力和工具调用能力。按照路线图，接下来几个月 xAI 还会推出代码模型、多模型智能体以及视频生成模型。

图/ xAI

此外，它们还推出了一项更高等级的订阅服务——SuperGrok Heavy，能够使用「最强模型」Grok 4 Heavy。

不过相比纸面上的无敌，在实际演示过程中，Grok 还是会出现比较低级的错误。更耐人寻味的是，就在 Grok 4 发布前几个小时，xAI 首席科学家 Igor Babuschkin 突然宣布了辞职。

自称“最强大模型”的Grok4，到底聪明在哪？

从技术视角出发，Grok 4 并不只是一次「常规迭代」。在这场 40 多分钟的发布直播中，xAI 试图传达的信息是：这不仅是一个在挑战人类智能的新模型，还是一个应用潜力巨大的 AI。

马斯克将 Grok 4 称为「在所有学科都超过博士水平」，并不完全是营销夸张。在 AIME25、HMMT25、GPQA 等主流基准测试中，Grok 4 将大模型的成绩进一步推向了极值，其中 Grok 4 Heavy 甚至在 AIME25（美国数学竞赛邀请赛）上拿下了满分。

图/ xAI

但更具标志性的是 ARC-AGI 以及 HLE 测试。前者借由 OpenAI o3 的测试引起了业界重视，主要聚焦 AI 的「学习」能力，而非「技能」，Grok 4 在 v1 版本中超过 o3 实现了 66%的准确率，在最新的 v2 版本中更是大幅领先其他大模型，做到了 15.9%的准确率。

至于 HLE 测试，则代表了人类智能的极限，由全球专家联合提出 2500 个专业问题，涉及数学、生物、计算机科学、化学、物理、工程学以及人类学等等不同学科，所以直接被命名为「人类终极考试」。

图/ xAI

在 Grok 4 之前，排名第一的模型 Gemini 2.5 Pro 准确率为 21.6%，其次是 OpenAI o3 20.3%。相比之下，Grok 4 的准确率则提高到了 25.4%，并且在借助工具的完整形态下还能进一步提高到 44.4%。

现场演示中，xAI 就展示了 Grok 4 对 HLE 测试中专家级题目的准确，马斯克认为人类中也只有极少人能够准确。而类似的问题，还有 2499 个。

除此之外，还有一个基于商业场景模拟的 Vending-Bench（自动售货机基准测试），需要 AI 进行管理库存、联系供应商、设定价格等。从测试结果来看， Grok 4 比起 Claude Opus 4 以及真人的运营效率都要高，创造的净值是真人的 5 倍以上。

而在直播中，xAI 还进行了多项演示，包括实时抓取 X 平台上的帖子，整理出各家参与 HLE 测试的时间线，或是找出 xAI 团队中头像最古怪的那一个。既展示了 Grok 4 的能力，也强调了与 X 平台深度整合的优势。

图/ xAI

直播中生成时间最长的一个现场演示，则是 Grok 4 对于 2025 年 MLB 世界大赛冠军的分析预测，亮点主要在于它对工具、数据的使用和分析过程，包括浏览了很多赔率网站的数据来计算。而整个过程，耗时近 4 分半。

此外，Grok 4 还能遍览关键论文和资料来开发一个网页，模拟两个黑洞接触会发生的变化。马斯克还表示，接下来他们还会为 Grok 4 提供真正的专业工具，包括物理学家使用的专业拟真软件，并预测 Grok 4 明年或许就能发现新的物理定律。

这听上去过于夸张，也缺乏实质支撑，但马斯克的 AI 叙事可能并不在于赶超 Google 和 OpenAI，而是要改变目标本身。而且从产品设计角度看，xAI 正在尝试将 Grok 4 变成一个与信息流紧密耦合的 AI 工具，而不是一个只能回答问题的机器人。

图/ xAI

在模型理解维度，Grok 4 还展示了对多模态输入的部分能力。尽管现场没有正式演示图像理解和生成能力，但马斯克强调了其「正在训练」。这意味着 Grok 4 的完整形态仍会是多模态大模型，而非 DeepSeek-R1 这样仅支持文本的推理模型。

换言之，这也意味着 Grok 4 能处理更复杂的感知输入，进一步拓展在现实世界的适用场景——例如人形机器人、自动驾驶、科研建模等。

值得一提的是，马斯克在直播中提及，「Grok 4 Heavy」才是当前最强版本，在推理、编码乃至物理学原理的理解上都胜过通用版模型。但 Heavy 版本目前仍处于内测阶段，且暂未向公众开放。

而在 Grok 4 的发布背后，是 10 倍于 Grok 3 的训练算力，也是 xAI 数月前在美国孟菲斯完成部署的超算集群「Colossus」。按照透露，这套超算塞下了 10 万张英伟达 H100 GPU，并可能率先部署 GB200 计算节点。

一次仓促的直播发布，Grok其实已麻烦缠身

如果只看模型本身，Grok 4 的确展示了不容忽视的实力。尤其在这次直播中，Grok 的语音能力也迎来了升级——不仅能够自然地切换语调，还新增了包括英式发音在内的多个声音角色。xAI 甚至展示了 Grok 可以「唱歌」，并在指令下朗读诗歌。

问题也出现在这里。在交互中，Grok 被要求「唱一首歌」，但却进入了「念诗」状态，用朗读语气念出了歌词。虽然是个小失误，却暴露出语音模型背后对多模态理解尚不稳定的事实——唱歌不只是发音，而是旋律、语调和节奏的协同输出，Grok 显然还没准备好。

图/ xAI

类似的小插曲贯穿整场发布。发布直播原定时间比计划晚了一小时开始，没有任何解释。直播内容虽然丰富，但整体节奏略显仓促，功能展示之间缺乏过渡逻辑。一些演示明显是预先准备好的。这种略显仓促的节奏，与前一天高管的离职消息叠加后，难免让人联想到内部的不稳定。

就在发布当天，xAI 首席科学家 Igor Babuschkin 宣布离职，而在更早前，X 公司 CEO Linda Yaccarino 也辞去了职务，并留下了一句意味深长的话：「现在，随着 X 与 xAI 一起进入新篇章，最好的事情还在后头。」

两人一走，发布会一开，再加上马斯克在直播中多次表达的那种对 AI「太聪明」的担忧，构成了一种微妙的不安感：Grok 4 也许真的很强，但它背后的组织架构、产品节奏，可能并没有准备好迎接它自己造出的「智能飞跃」。

图/ xAI

更现实的问题是，Grok 4 还必须面对全世界最强的两个对手——OpenAI 的 ChatGPT，和 Google 的 Gemini。在技术实力逐渐追平的今天，真正的分水岭往往并不在于模型能不能答对一个考题，而在于平台、生态和用户。

更麻烦的是，Grok 还维持了一种「不一样」的姿态——有性格、敢说话、更自由。这是马斯克为它设计的人设。但也正是这种人设，让 Grok 更容易翻车。就像过去几个月，它因为生成偏激内容而引发舆论。

所以，这一代 Grok 4 确实很强，甚至可能已经比研究生乃至博士更聪明。但技术领先不代表用户信任，也不代表产品成熟，实际体验我们还是要看模型在实际体验中的表现。

马斯克在直播中一度表示，有点担心「AI 的智能远远超过人类」对于我们是好是坏，但又强调「已经某种程度上接受了这样的现实，即使它不是好的，我也至少想活着看到它发生。」

本文来自“雷科技”，36氪经授权发布。

本文分类：实时讯息
本文标签：模型的是测试马斯克能力演示准确率人类
浏览次数：0 次浏览
发布日期：2025-07-10 19:45:00
本文链接：https://www.shengzhuangwang.cn/news/76rYdMmlRM.html

上一篇 > 魂动语言进化，全新CX-5将引领马自达未来设计方向
下一篇 > 青岛市北城发12亿债券7月18日兑付本息利率3.70%

硅基流动：上线DeepSeek-V3.1，上下文升至160K

据硅基流动消息，8月25日，硅基流动大模型服务平台已上线深度求索团队最新开源的DeepSeek-V3.1，支持160K超长上下文。

2025-08-25 20:27:00

查看详情

冲上热搜！知名女演员的富豪丈夫，被限制高消费

8月24日，话题词“王艳富豪丈夫已被限消”冲上微博热搜高位，引发热议。近日，《还珠格格》中“晴格格”扮演者王艳在个人账号，开启今年以来第二场直播带货。数据显示，今年王艳两场直播带货，总计销售额超3000万元。此前，王艳因直播带货引发争议，网友称其“隐形炫富”且选品价格偏高。王艳8月20日发视频回应

2025-08-25 15:02:00

查看详情

体制内，着装最忌讳的是什么

来源：部委老农自留地在体制内，穿衣打扮这事，说小了是个人形象，说大了是机关形象，是公职人员队伍形象，所以小事不小，还是要什么场合穿什么衣服。一般来说，体制内的着装应当合乎身份，庄重、朴素、大方，不同场合要求也不同。一是正式场合：着正装。所谓的正式场合，指的是场合严肃庄重，所以着装也要端庄大方。男生一

2025-08-23 20:43:00

查看详情

最新装备、国之重器齐上场！装备方队展示我军制胜现代战争强大能力

国务院新闻办公室今天上午举行新闻发布会，介绍阅兵准备工作有关情况，并答记者问。相关负责人介绍：装备方队，按照实战化联合编组，编陆上作战群、海上作战群、防空反导群、信息作战群、无人作战群、后装保障群、战略打击群等，不少是代表现代战争形态演变的最新装备，还有一些是国之重器，充分展示我军制胜现代战争的强大

2025-08-20 10:16:00

查看详情

全运会资格赛大冷门：浙江男团0-3脆败，郑思维组合意外失守！

北京时间2025年8月19日，昨晚全运会资格赛男团A组决战，江苏队以一场令人瞠目的3-0横扫卫冕冠军浙江队，让众多球友议论纷纭。赛前，网友们还在推演：江苏男单占优，浙江双打强势，胜负极可能拖入第五局决战。然而，当郑思维/郭新娃这对备受期待的国手组合走上赛场，大家都以为这一分十拿九稳。但开局发接发环节

2025-08-20 08:55:00

查看详情