今天的新站

大家上新站的速度真快,我看到 veo3.2,上线 https://veo32.one/ ,他们都已经 1 月 20 日就上线了。...

年前开发的网站,在 Reddit 推广了一圈没人用,是需求太伪了吗?

本来想做一个能把碎片化信息变更有序的工具,起名 Curato 。折腾了两个月,自认为 UI 挺干净,逻辑也顺。 结果推出去之后现实教做人。Reddit 上的老哥们看一眼就走了。 现在看着后台寥寥无几的数据库记录,深刻怀疑自己是不是又造了一个“只有开发者自嗨”的轮子。 网站地址: https://www.curato.live/ 大家平时对这种收藏/整理类工具有真实需求吗?还是说直接用 Notion/浏览器书签就到头了?想听听真实反馈,哪怕是吐槽 UI 丑也行。...

OpenAI 自废 SWE-bench Verified:基准污染后, AI 编程分数还能信吗?

先说结论:跑分看个参考就行,别太当真。 OpenAI 最近发了篇博文,宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题: 问题一:数据污染 SWE-bench 的题目来自开源 GitHub 仓库,而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测,发现所有前沿模型( GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash )都能复现标准答案: GPT-5.2:给简短提示就能输出完整 gold patch ,精确到类名和方法名 Claude Opus 4.5:能逐字引用代码注释,准确描述 PR 删掉的代码 Gemini 3 F...