OpenAI 自废 SWE-bench Verified:基准污染后, AI 编程分数还能信吗?

先说结论:跑分看个参考就行,别太当真。 OpenAI 最近发了篇博文,宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题: 问题一:数据污染 SWE-bench 的题目来自开源 GitHub 仓库,而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测,发现所有前沿模型( GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash )都能复现标准答案: GPT-5.2:给简短提示就能输出完整 gold patch ,精确到类名和方法名 Claude Opus 4.5:能逐字引用代码注释,准确描述 PR 删掉的代码 Gemini 3 F...

dlercloud 又复活了,快去换订阅链接

看到 tg 群解散了还以为彻底凉凉了后来发现 bot 发送的官网地址换了域名,于是用老账户登录进去看到了公告: 这个 NEW NEO NETWORK 有听过的吗?...

最近看到 SpacetimeDB 2.0 发布,适合实时要求高的 Web/Game 后端

刚看了 SpacetimeDB 2.0 的 发布视频,这东西的想法挺有意思的,把数据库和服务器逻辑直接合在一起了。Convex 框架也是类似的方式,但是实时性能差了很多。这玩意理论延迟比传统架构快几百上千倍,实际业务测试比第二名快了 13 倍。原本是给开发 MMO 游戏的独立开发者的后端,现在官方开始推广到 Web ,提供了很多框架的适配,支持自部署和云服务,感觉很不错。 简化了后端的架构和逻辑以后,定义好 rules 让 AI 写代码的话应该会更加简单高效,不容易出错 (官方的 LLM 测试结果)。我打算研究下试试,有没有人关注过这个?或者已经用过的来交流下坑多不多。 另外新版本发布期间通过...

百分浏览器这么强强强呢?为什么没有早发现!

/t/1188293 ,推荐最多的就是百分浏览器,今天终于还是试了下,啊啊啊,这不就是我用了多年的 360chrome 吗?鼠标手势、超级拖拽、左右展开的收藏夹、google 账号同步、收藏夹新标签打开、双击标签关闭、标签页点喇叭静音,简单一模一样,还没有任何广告,太良心了!扔不了 360chrome 就是因为上面这些功能,试了很多浏览器都不行,今天终于发现了,感谢百分浏览器作者!必须给个大大的赞!!!如果你喜欢上面这些功能,一定要试试哈!...

直接修改前端 class 就能查到 25 年的个税年度汇算了

直接登录 https://www.etax.chinatax.gov.cn 选我要办税-年度汇算,选择申报年度的时候,打开开发者工具,给 2025 那个 span 上的 disabled 类名移除,就能选择了,然后下一步,就能看到退/补税的信息了,当然现在还不能提交。 再次感慨一下,世界果然是个巨大的草台班子……...

求助 文字编辑系统因为乱码总是无法同步 rss.....

公司有个后台用于日常发布图文稿子,整个系统应该是 wordpress 改的,虽然有点简陋但运行了很多年还算能用。最近来了新些同事在发布时,源代码里面偶尔会附带一些乱码,如图长这样,000B 一个框: 这个乱码经查出现在文字末尾,并且后面会紧跟着图片,比如这样: 一旦出现乱码就会导致 rss 无法正常输出,进而无法同步到各平台,然后就会引发一系列麻烦,而且还很难复现,即便嘱咐得无格式粘贴但好像也无法完全避免,目前只能做个简单的检测来及时发现问题,没办法根治。各位是否有遇到或者有头绪?我好去找技术查查原因……...

找到了一个 trae 隐藏入口

https://www.trae.cn/article/ 有的一天能生成 100 篇技术文章,专门给搜索引擎爬虫引流的吗?必应搜索找到的...

非体制内的人,靠什么替代铁饭碗?

过年回县城,和朋友吃饭聊起工作。说起体制内的工作,说得很实在:稳定、福利好、一辈子不用担心失业,就是完美的工作。 我没有反驳,但回来之后一直在想一个问题:他说的那种安全感,本质上是什么?如果不在体制内,这种安全感能用什么来替代?非体制内的人,到底要攒到什么程度,才算真正可以退出? 整理了一下思路,写了篇文章: https://www.bmpi.dev/self/my-retirement-plan/ 欢迎算算你自己的数字,也欢迎聊聊你怎么看体制内外的安全感差异。...

网易有道开源了 LobsterAI,基本是个开箱即用版的 OpenClaw

先给结论:如果你试过 OpenClaw 但被安装配置劝退了,LobsterAI 值得看一眼。双击安装的桌面 App ,内置 16 个 Skill ,已开源 MIT 。 背景 OpenClaw 大家都知道,GitHub 22 万 star ,能自主操作电脑的 AI 助手。但它的问题也很明显——需要 Node.js 22+ 环境,命令行安装,自己配依赖。对开发者来说还行,非技术用户基本劝退。 网易有道做了个 LobsterAI (有道龙虾),思路是把 OpenClaw 的能力封装成一个 Electron 桌面应用。2 月 19 日开源,MIT 协议。 GitHub: https://github....

过年学了一下德州扑克,真好玩。

和表堂弟们玩 5 块 10 块的,看他们玩了几把就坐下去一起玩了。刚坐下去输了 300 块钱,后面渐渐赢回来了,最后没输没赢,反倒是麻将输了 300 块钱。明年准备买点筹码来玩,感觉比麻将好玩一点。另外还有一件事,今年回广州的高铁一直补不到票,只能加了 30 块钱买了全程的票。明年得提前买了。...