先说结论:跑分看个参考就行,别太当真。 OpenAI 最近发了篇博文,宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题: 问题一:数据污染 SWE-bench 的题目来自开源 GitHub 仓库,而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测,发现所有前沿模型( GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash )都能复现标准答案:
GPT-5.2:给简短提示就能输出完整 gold patch ,精确到类名和方法名 Claude Opus 4.5:能逐字引用代码注释,准确描述 PR 删掉的代码 Gemini 3 Flash:只给任务 ID ,就输出逐字匹配的完整 diff
这不是能力强,是背过答案。 问题二:测试设计缺陷 审计了 138 道题(约 28%),每题至少 6 名工程师独立审查:
59.4% 存在测试设计缺陷 35.5% 是「窄测试」:强制检查特定实现细节,比如测试直接 import 一个特定函数名 18.8% 是「宽测试」:检查了题目描述之外的功能
SWE-bench Verified vs Pro
维度 Verified Pro
题量 500 1865
语言 Python Python/Go/TS/JS
平均改动量 11 行 107 行
仓库数 12 41
同一批模型:Verified ~80%,Pro ~43-50%。分数腰斩。 原文: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/