Openai O3型号未达到其自己的基准要求

Openai最新的LLM O3在独立测试发现其解决的严重数学问题要比公司最初声称的艰难数学问题要少得多后面临审查。

当Openai于12月宣布O3时，高管们说，该模型可以回答“ Frontiermath的第四个问题”，这是众所周知的一组研究生级数学难题。

他们补充说，最好的竞争对手被困在接近2％。首席研究官马克·陈（Mark Chen）在O3和O3 Mini期间说：“今天，所有产品都不到2％。”直播。 “我们看到的是，在积极的测试时间计算设置中，我们能够获得超过25％的计算。”

TechCrunch报告该结果是由Openai在O3版本上获得的，该版本使用的计算能力比公司上周发布的模型更多.

星期五，创建Frontiermath的研究所时代的AI为公共O3发布了自己的成绩。

Openai与O4-Mini一起发布了O3，这是O4-Mini，这是一个成功的O3 Mini模型。

我们评估了数学和科学基准套件的新模型。导致线程！pic.twitter.com/5gbtzkEy1B

- Epoch AI（@epochairesearch）2025年4月18日

使用基准的290个问题的更新版本，Epoch将模型的限制约为10％。

结果确实与OpenAI 12月技术论文中的较低型数字相匹配，时代警告说，差异可能是由于各种原因所致。

“我们的结果与OpenAI之间的区别可能是由于使用更强大的内部支架评估，使用更多的测试时间计算，或者是因为这些结果是在Frontiermath的另一个子集上运行的，” Epoch写.

Frontiermath旨在衡量朝着高级数学推理的进步。 2024年12月的公共场合包含180个问题，而2025年2月的私人更新将池扩展到290。

问题列表中的变化和测试时间允许的计算能力量可能会导致报告百分比的大幅波动。

ARC奖基金会的测试也来自于较早的构建，这也来自ARC奖基金会的测试。公共版本“是另一种模型……调整聊天/产品使用”，Arc Price Foundation发表在X上，并补充说：“所有发布的O3计算层都比我们基准的版本小。”

Openai员工Wenda Zhou在上周的直播中也提供了类似的解释。他说，生产系统“针对现实世界的用例更优化”和速度。周说：“我们已经进行了[优化]，以使模型更具成本效益，并且一般而言。”同时承认可能的基准“差异”。

该公司的两个较小型号，O3 -Mini -High和新宣布的O4 -Mini，已经在Frontiermath上击败O3，Openai表示，未来几周将有更好的O3 -Pro变体。

尽管如此，它表明了基准标题如何误导。一月份，Epoch因将OpenAI资金披露推迟到O3首次亮相后而受到批评。最近，埃隆·马斯克（Elon Musk）创业公司XAI被指控呈现图表，这些图表夸大了其Grok 3模型的功能。

行业观察家说，随着公司争夺新车型的头条新闻，这种基准争议已成为AI行业的一个发生。

密码大都会学院：厌倦了市场波动？了解DEFI如何帮助您建立稳定的被动收入。立即注册

Open the app to read the full article