OpenAI 模型表现差距显著

责编：晨峰浏览：

城市快报网时间：2025-04-21

近日，人工智能领域迎来重要进展，OpenAI推出新款多模态推理模型o3与o4-mini，号称是目前最强、最智能的AI模型。

不过，这一备受瞩目的技术成果很快引发争议。独立研究机构通过测试发现，该模型的实际表现与其官方宣称的能力存在显著差异，这一发现令业内对OpenAI的技术透明度和评测方法提出质疑。

去年12月，OpenAI在预发布阶段就曾对外展示o3的强大能力，声称其能解答 FrontierMath 中超过25%的高难度数学问题。这一成绩远超同行，当时业内普遍认为该模型的表现已达到领先水平。

然而，第三方测试结果却显示实际情况并非如此。美东时间4月18日，开发 FrontierMath 的Epoch AI公布了对o3的实际评测数据，发现其解题率仅为约10%，远低于OpenAI此前公布的25%。

尽管如此，这并不完全意味着OpenAI存在虚假宣传。Epoch AI分析认为，双方测试结果的差异可能源于评估方法的不同。例如，他们使用的 FrontierMath 版本和测试环境可能存在差异。

此外，另一个独立机构ARC Prize Foundation也对o3的实际性能进行了评测。该机构指出，正式发布的o3模型与预发布版本存在显著区别，特别是在计算层规模上有所缩小，而这通常会影响最终的评测结果。

这一现象并非个例。随着AI行业竞争日益激烈，各厂商在基准测试中"优化表现"的情况已逐渐常态化。近期就有多个案例引发关注：例如埃隆·马斯克创立的xAI公司被指其Grok 3模型的评测数据存在问题；Meta的新一代开源模型Llama 4也因宣传与实际版本不符而受到质疑。

这些事件引发了行业对AI评测标准和透明度的深刻反思，如何建立公正、可信赖的技术评估体系，已成为人工智能发展道路上的重要课题。

责任编辑：晨峰

差距显著模型

THE END

城市快报网所刊载信息，来源于网络，并不代表本站观点。本文所涉及的信息、数据和分析均来自公开渠道，如有任何不实之处、涉及版权问题，请联系我们及时处理。城市快报网，不提供任何互联网新闻相关服务。本文仅供读者参考，任何人不得将本文用于非法用途，由此产生的法律后果由使用者自负。

如因文章侵权、图片版权和其它问题请邮件联系，我们会及时处理：Ts_leecn@sina.com

相关推荐