68 页论文再锤大模型竞技场：Llama4 发布前私下测试 27 个版本，只取最佳成绩

这项研究由 Cohere 团队、普林斯顿大学、斯坦福大学等机构研究人员共同提出。

其中 Cohere 也是一家大模型厂商，由 Transformer 作者 Aidan Gomez 等人创办，推出了 Command R + 系列模型。

“竞技场不应该是唯一基准参考”

大模型竞技场诞生 2 年来，因为机制的特殊性，其参考价值越来越高，大厂发模型也必来这里打榜，甚至是将未发布模型提前在此预热造势。

它最大的优势在于基于人类偏好评估，用户可以在同一平台上同时运行多个聊天机器人模型，如 GPT-4、ChatGPT-3.5 等，并针对相同的问题或任务进行比较分析，可以更直观感受不同模型的差异。

最近一段时间，由于 Llama4 刷榜风波，给竞技场的可信度也造成了一定影响。