震惊!知名 AI 大公司竟做出这种事……

早晨看到 Gemma2 的跑分就觉得不对,里面 llama3 那个 666 的 mmlu 太标志性了,抽空把这两个都跑了一遍 GSM-8K

谷歌这宣传资料很明显是用自家微调过的模型打 llama3 的基础模型,脸都不要了

全部 bench 都是原汁原味的 pytorch 运行,
gemma2 发了个 f32 的 base 我还用 f32 跑的,慢的想死