大模型你方唱罢我登场,到底谁在裸泳?

转载摘要

本文以应用生成为场景,设计了一系列 testcase ,主要考查模型的推理能力及指令遵从的能力,测评了当前主流的国内外大模型。以下为关键结论:

图片

原文链接

没想到百度表现这么差……