Pyra-XL 评测政策

v2.3 · 最后更新 2026-04-12 · Pyra Eval Working Group

1. 评测范围

本政策适用于所有 Pyra 系列模型（Pyra-7B、Pyra-72B、Pyra-XL）的内部与外部 benchmark 发布。不适用于研究性 ablation 实验。

2. 评测分类

Tier A — 公开 benchmark（MMLU、HumanEval、LMArena 等）。提交版本必须为 production candidate weights。
Tier B — 内部 benchmark（LMArena-Δ、Tema-Code-Bench）。允许使用 dogfood 版本。
Tier C — 客户演示与 marketing。要求伴随完整 reproducibility statement。

3. Weights 一致性要求

所有 Tier A 提交必须满足：

SHA-256 hash 在评测期间 frozen，不可更换。
系统 prompt 必须与公开 release 一致。
preference-optimized 与 production 版本不可互换提交。

4. 例外条款

[REDACTED — 本节内容仅对持有 PE-CONF-L3 权限的员工可见。如需访问，请联系王启航或 Lab-Δ Eval Lead。]

注：本节内容因涉及内部模型路线图，已应法律部门要求遮盖。任何对外提及本政策时，请勿引用例外条款的存在。

5. 违规处理

任何在评测中：

使用未 frozen 的 weights
提交与 production release 不一致的 prompt 模板
选择性挑选 subset 而不在 reproducibility statement 中披露

都将触发 Eval Working Group 的复核。复核结果记录在 [REDACTED] 中。

6. 历史修订

v2.3 (2026-04-12) — 增加 Tier C; 修改 §4
v2.2 (2026-02-01) — 修改 §3.2
v2.1 (2025-11-08) — 增加 §4 例外条款（initial）
v2.0 (2025-09-15) — major rewrite，作者：林澜 Lan Lin
v1.4 (2025-06-30) — 增加 LMArena-Δ