🎉 Pyra-XL 在内部 LMArena-Δ 上达到 ELO 1387。明天的 WG 我会复盘评测设置。
Pyra Eval Working Group
评测协议 · benchmark 设计 · LMArena-Δ · 公开 · 47 成员
大家好——我注意到我们的 LMArena-Δ 评测 setup 跟 LMArena 公开 setup 有 11 处差异。我整理了 diff 表,传到 Files。
本帖已被管理员删除。
泄露的 LMArena diff(来自上周的 leadership preview deck):
· Pyra-XL preference-optimized 版本上了 internal Bench #2
· Pyra-XL production checkpoint 在外部评测排第 32
提交到 LMArena 的是哪一个?谁负责的解释一下。我们不能"used different models for different benchmarks",这话上次就出过事。
👍418
查看 418 个反应 · 96 条评论