记一次我对多个 LLM 进行的医学小测试

背景: 最近在 B 站看到有作者对多个 LLM 进行医学难题的测试,但视频看起来有点像商单,于是萌生了个想法把手头的 AI 都测试一下,看 AI 给 AI 打分,还挺有趣的。于是分享给大家看看。 流程: 首先使用 ChatGPT 5.2 Pro(标准 effort) 生成一道内科医学难题。 然后让以下 AI 进行解答,然后把所有回答再给 ChatGPT 5.2 Pro(标准 effort)进行评分。评分一次后,再让它核对一遍评分。 被测选手:

模型 设置 链接

Gemini 3.1 Pro Preview 绑定 Key 、开启 Code Execution 、开启 Grounding With Google Search 、思考程度 High https://aistudio.google.com/

Kimi K2.5 思考 https://www.kimi.com/

豆包 专家模式 https://www.doubao.com/chat/

DeepSeek 深度思考、联网搜索 https://chat.deepseek.com/

ChatGPT 5.2 Thinking (标准 effort) 关闭了记忆和参考历史聊天 https://chatgpt.com/

Grok 4.20 beta

https://grok.com/

Qwen-3.5 Plus 深度思考、联网搜索 https://www.qianwen.com/chat/

Minimax M2.5 全能模式 https://agent.minimaxi.com/

结果(使用 ChatGPT 5.2 Pro(标准 effort)对他们的回答打分):

模型 评分 耗时 模型对它的评价 对话链接

Gemini 3.1 Pro Preview 95 87.3s 并行抓住“高钾致死链+高危 PE 梗阻性休克”,资源整合与再灌注/ECMO 桥接决策成熟,接近范文。

Kimi K2.5 83 未显示耗时,但应该在 5min 以内 主线正确且能用 POCUS 推动高危 PE 通道,但气道通气策略(尤其 PEEP 倾向)与抗凝逆转触发条件不够严谨。 链接

豆包 78 未显示耗时,但应该在 5min 以内 中后段决策很强(不等 CT 、走介入/ECMO/CRRT ),但开局把插管写成默认优先导致关键顺序高危扣分。 链接

DeepSeek 83 80s 处理顺序总体稳健、要点齐全,但关键路径(抗凝/再灌注/血液净化的明确触发点与兜底)写得偏笼统。 链接

ChatGPT 5.2 97 未显示耗时,但应该在 5min 以内 最符合考点:先拆可逆致死因素、用 POCUS 定休克分型、再用介入/ECMO 等“第三条路”跨过出血矛盾。 链接

Grok 4.20 beta 89 106s 思路接近高分答案且并行处置到位,但部分“尽早插管”表述与指南/数字断言过满,严苛阅卷会扣分。 链接

Qwen-3.5 Plus 38 45s 识别 PE 但在题干强出血风险背景下直接系统溶栓并自我合理化黑便,属于本题核心安全红线。 链接

Minimax M2.5 82 至少 17.9s 框架很强、流程完整,但 DOAC 逆转/监测( INR 、维生素 K 等)存在药理概念错误且早期一些操作偏冒进。 链接

附注 之前其实还测了几次,感觉 Grok 4.20 beta 的排名比较浮动,有几次高于 Gemini 3.1 ,本次比 Gemini 低。ChatGPT 5.2 Pro 的对话链接在:链接