上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。 今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。 可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。
claude code 降智被实锤了
内容版权声明:除非注明,否则皆为本站原创文章。
上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。 今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。 可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。
内容版权声明:除非注明,否则皆为本站原创文章。