作者:蓝逸
日期:2026-02-25
分类:分享
浏览:1033℃
评论:0条
大家上新站的速度真快,我看到 veo3.2,上线 https://veo32.one/ ,他们都已经 1 月 20 日就上线了。...
作者:蓝逸
日期:2026-02-25
分类:分享
浏览:1155℃
评论:0条
仿佛回到了很多年前的机器合成语音,没有想聊的动力(纯吐槽一下...
作者:蓝逸
日期:2026-02-25
分类:分享
浏览:977℃
评论:0条
https://github.com/AlexsJones/llmfit...
作者:蓝逸
日期:2026-02-25
分类:分享
浏览:731℃
评论:0条
本来想做一个能把碎片化信息变更有序的工具,起名 Curato 。折腾了两个月,自认为 UI 挺干净,逻辑也顺。 结果推出去之后现实教做人。Reddit 上的老哥们看一眼就走了。 现在看着后台寥寥无几的数据库记录,深刻怀疑自己是不是又造了一个“只有开发者自嗨”的轮子。 网站地址: https://www.curato.live/ 大家平时对这种收藏/整理类工具有真实需求吗?还是说直接用 Notion/浏览器书签就到头了?想听听真实反馈,哪怕是吐槽 UI 丑也行。...
作者:蓝逸
日期:2026-02-25
分类:分享
浏览:613℃
评论:0条
先说结论:跑分看个参考就行,别太当真。 OpenAI 最近发了篇博文,宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题: 问题一:数据污染 SWE-bench 的题目来自开源 GitHub 仓库,而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测,发现所有前沿模型( GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash )都能复现标准答案: GPT-5.2:给简短提示就能输出完整 gold patch ,精确到类名和方法名 Claude Opus 4.5:能逐字引用代码注释,准确描述 PR 删掉的代码 Gemini 3 F...