OpenAI o3 模型测试成绩不符预期，透明度问题引发关注

大浪淘沙 · 发表于 2025-4-21 12:04:20

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

OpenAI 此前声称其 o3 模型在高难度数学数据集 FrontierMath 上的正确率超过 25%，大幅领先其他模型的 2%。然而，独立机构 Epoch 最近公布的测试显示，该模型的实际正确率仅约 10%。外界怀疑 OpenAI 此前引用的是资源更强大、尚未公开的模型版本，且测试所用的 FrontierMath 版本可能与第三方不同。ARC Prize 也指出，公开发布的 o3 模型是为聊天用途优化的变体，计算层级小于早期评测版本。

尽管 OpenAI 表示将在未来几周发布更强版本的 o3-pro，并已推出性能更优的 o3-mini-high 和 o4-mini 模型，此事件仍引发业内对 AI 模型基准测试可信度的担忧。随着 AI 厂商竞相发布新产品，夸大或误导性测试结果的争议频发。今年以来，xAI 和 Meta 也因模型测试与实际表现不符受到质疑，呼吁提高评估公开性与标准化的声音持续升高。

TechCrunch (https://techcrunch.com/2025/04/2 ... -initially-implied/)

zhangyuge · 发表于 2025-4-21 12:36:19

感谢分享

XYZ124 · 发表于 2025-4-21 14:00:36

感谢分享

狼鹰 · 发表于 2025-4-21 15:45:24

感谢分享

独孤梵听 · 发表于 2025-4-21 23:29:36

感谢分享

wusuoshishi · 发表于 2025-4-22 09:00:25

谢谢分享

风中追枫 · 发表于 2025-4-24 21:48:45

感谢分享

llliii · 发表于 2025-5-2 13:43:20

感谢分享

[最新资讯] OpenAI o3 模型测试成绩不符预期，透明度问题引发关注

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

版权声明

电梯直达 评论7

回复

帅哥

龙的传人

版主

活跃之星

摩羯座

子鼠

午马

寅虎

金牛座

发财

卯兔

海贼的船

处女座

双子座

常住居民

在线之星

灌水之星

美女

巳蛇

萌萌哒哒

白羊座

双鱼座

戌狗

酉鸡

天秤座

嘻嘻哈哈

国宝熊猫

起源勋章

马上有钱

爱心之星

乔巴勋章

水瓶座

射手座

亥猪

天蝎座

最佳新人

抠搜之星

源大侠

壹万会员

申猴

舞动江湖

滑稽勋章

锄荡令

辰龙

遇见有你

巨蟹座

新春祝福

未羊

冬日之星

懒人之星

科普之星

書友之星

丑牛

狮子座

在线之星

在线之星

宣传之星

关于我们

服务支持

ysqbbs@outlook.com

电梯直达
评论7