这项研究由 Cohere 团队、普林斯顿大学、斯坦福大学等机构研究人员共同提出。
其中 Cohere 也是一家大模型厂商,由 Transformer 作者 Aidan Gomez 等人创办,推出了 Command R + 系列模型。
“竞技场不应该是唯一基准参考”
大模型竞技场诞生 2 年来,因为机制的特殊性,其参考价值越来越高,大厂发模型也必来这里打榜,甚至是将未发布模型提前在此预热造势。
它最大的优势在于基于人类偏好评估,用户可以在同一平台上同时运行多个聊天机器人模型,如 GPT-4、ChatGPT-3.5 等,并针对相同的问题或任务进行比较分析,可以更直观感受不同模型的差异。
最近一段时间,由于 Llama4 刷榜风波,给竞技场的可信度也造成了一定影响。