OpenAI 自废 SWE-bench Verified：基准污染后， AI 编程分数还能信吗？

作者：蓝逸日期：2026-02-25 浏览：614℃ 分类：分享

先说结论：跑分看个参考就行，别太当真。 OpenAI 最近发了篇博文，宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题：问题一：数据污染 SWE-bench 的题目来自开源 GitHub 仓库，而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测，发现所有前沿模型（ GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash ）都能复现标准答案：

GPT-5.2：给简短提示就能输出完整 gold patch ，精确到类名和方法名 Claude Opus 4.5：能逐字引用代码注释，准确描述 PR 删掉的代码 Gemini 3 Flash：只给任务 ID ，就输出逐字匹配的完整 diff

这不是能力强，是背过答案。问题二：测试设计缺陷审计了 138 道题（约 28%），每题至少 6 名工程师独立审查：

59.4% 存在测试设计缺陷 35.5% 是「窄测试」：强制检查特定实现细节，比如测试直接 import 一个特定函数名 18.8% 是「宽测试」：检查了题目描述之外的功能

SWE-bench Verified vs Pro

维度 Verified Pro

题量 500 1865

语言 Python Python/Go/TS/JS

平均改动量 11 行 107 行

仓库数 12 41

同一批模型：Verified ~80%，Pro ~43-50%。分数腰斩。原文： https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

转载注明出处：http://dixi.eu.org/32164.html

上一篇年前开发的网站，在 Reddit 推广了一圈没人用，是需求太伪了吗？

下一篇 dlercloud 又复活了，快去换订阅链接