OpenAI 模型表现差距显著

责编:晨峰浏览:
城市快报网 时间:2025-04-21

近日,人工智能领域迎来重要进展,OpenAI推出新款多模态推理模型o3与o4-mini,号称是目前最强、最智能的AI模型。

不过,这一备受瞩目的技术成果很快引发争议。独立研究机构通过测试发现,该模型的实际表现与其官方宣称的能力存在显著差异,这一发现令业内对OpenAI的技术透明度和评测方法提出质疑。

去年12月,OpenAI在预发布阶段就曾对外展示o3的强大能力,声称其能解答 FrontierMath 中超过25%的高难度数学问题。这一成绩远超同行,当时业内普遍认为该模型的表现已达到领先水平。

然而,第三方测试结果却显示实际情况并非如此。美东时间4月18日,开发 FrontierMath 的Epoch AI公布了对o3的实际评测数据,发现其解题率仅为约10%,远低于OpenAI此前公布的25%。

image

尽管如此,这并不完全意味着OpenAI存在虚假宣传。Epoch AI分析认为,双方测试结果的差异可能源于评估方法的不同。例如,他们使用的 FrontierMath 版本和测试环境可能存在差异。

此外,另一个独立机构ARC Prize Foundation也对o3的实际性能进行了评测。该机构指出,正式发布的o3模型与预发布版本存在显著区别,特别是在计算层规模上有所缩小,而这通常会影响最终的评测结果。

这一现象并非个例。随着AI行业竞争日益激烈,各厂商在基准测试中"优化表现"的情况已逐渐常态化。近期就有多个案例引发关注:例如埃隆·马斯克创立的xAI公司被指其Grok 3模型的评测数据存在问题;Meta的新一代开源模型Llama 4也因宣传与实际版本不符而受到质疑。

这些事件引发了行业对AI评测标准和透明度的深刻反思,如何建立公正、可信赖的技术评估体系,已成为人工智能发展道路上的重要课题。

责任编辑:晨峰
THE END

城市快报网所刊载信息,来源于网络,并不代表本站观点。本文所涉及的信息、数据和分析均来自公开渠道,如有任何不实之处、涉及版权问题,请联系我们及时处理。城市快报网,不提供任何互联网新闻相关服务。本文仅供读者参考,任何人不得将本文用于非法用途,由此产生的法律后果由使用者自负。

如因文章侵权、图片版权和其它问题请邮件联系,我们会及时处理:Ts_leecn@sina.com

相关推荐