返回列表 发布新帖

[最新资讯] OpenAI o3 模型测试成绩不符预期,透明度问题引发关注

17 3
发表于 7 小时前 | 查看全部 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
image.webp
OpenAI 此前声称其 o3 模型在高难度数学数据集 FrontierMath 上的正确率超过 25%,大幅领先其他模型的 2%。然而,独立机构 Epoch 最近公布的测试显示,该模型的实际正确率仅约 10%。外界怀疑 OpenAI 此前引用的是资源更强大、尚未公开的模型版本,且测试所用的 FrontierMath 版本可能与第三方不同。ARC Prize 也指出,公开发布的 o3 模型是为聊天用途优化的变体,计算层级小于早期评测版本。

尽管 OpenAI 表示将在未来几周发布更强版本的 o3-pro,并已推出性能更优的 o3-mini-high 和 o4-mini 模型,此事件仍引发业内对 AI 模型基准测试可信度的担忧。随着 AI 厂商竞相发布新产品,夸大或误导性测试结果的争议频发。今年以来,xAI 和 Meta 也因模型测试与实际表现不符受到质疑,呼吁提高评估公开性与标准化的声音持续升高。

TechCrunch (https://techcrunch.com/2025/04/2 ... -initially-implied/)

皇家马德里拥趸,Modric、Vinicius、valverde的忠实人迷

评论3

zhangyugeLv.5 发表于 7 小时前 来自手机 | 查看全部
感谢分享
回复

使用道具 举报

XYZ124Lv.4星光赞助(未赞助不可申请) 发表于 5 小时前 来自手机 | 查看全部
感谢分享
回复

使用道具 举报

狼鹰Lv.5 发表于 3 小时前 来自手机 | 查看全部
感谢分享
回复

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

投诉/建议联系

ysqbbs@outlook.com

未经授权禁止转载,复制和建立镜像,
如有违反,追究法律责任
  • 关注公众号
  • 添加QQ群
Copyright © 2001-2025 源社区 版权所有 All Rights Reserved.
关灯 在本版发帖
扫一扫添加QQ群
返回顶部
快速回复 返回顶部 返回列表