1. TRACE评测体系概述
TRACE是SkillHub 首发的一套AI Skill质量评测体系,从五个维度全面评估Skill质量,帮助用户快速识别高质量Skill。
- 发布背景:2026年5月21日,腾讯新闻科技、SkillHub与腾讯玄武实验室联合发布TRACE框架,这是国内首个面向Skill真实使用场景的严选评测体系
- 评测对象:以SkillHub平台收录的技能为样本来源,持续迭代评测标准
- 评测目标:解决AI Skill市场快速增长但质量评估体系滞后的问题,帮助用户判断"哪个Skill真正好用"
2. TRACE五个评测维度详解
TRACE由五个英文字母构成,对应五个评测维度,形成从安全红线到使用过程、再到结果增益的完整判断路径。
T — Trust(可信任度)
- 核心问题:能不能放心用
- 评测内容:安全检测、最小权限、敏感信息保护、国内可用性、中文支持
- 红线维度:触碰安全红线的Skill直接淘汰,不考虑其他维度得分
R — Reliability(可靠性)
- 核心问题:能不能稳定用
- 评测内容:稳定运行、一致结果、边界输入处理、异常反馈机制
- 考察Skill在标准环境下是否能持续工作,避免崩溃、超时、依赖缺失等问题
A — Adaptability(适用性)
- 核心问题:该不该在这个场景用
- 评测内容:场景匹配度、触发条件清晰度、能力边界界定、输入输出规范性
- 评估Agent能否精准识别并在适当场景下调用该Skill
C — Convention(规范性)
- 核心问题:能不能被理解、维护和复用
- 评测内容:渐进式披露、文档结构清晰度、限制说明完整性、示例充分性
- 判断Skill是否具备被理解、被运行、被评测、被复用和持续维护的基础
E — Effectiveness(有效性)
- 核心问题:是否真正解决用户问题
- 评测内容:结果正确性、输出完整性、可直接使用性、减少返工率
- 引入科学对照实验机制:在同一任务下分别测试"启用Skill"与"仅用原生模型"的表现,只有当Skill带来显著真实增益时才被视为合格
3. TRACE评测方法与特色
TRACE采用主客观结合的评测方法,确保评测结果的科学性和公正性。
- 客观对照实验:通过"no-skill参照组"判断Skill是否真正带来结果增益,避免将模型本身能力误判为Skill贡献
- 主观盲评:由旗舰模型模拟专业评审,对两组产出进行盲评,聚焦实际交付价值
- 每月一期精选榜单:为避免全量评分不可持续和头部效应垄断问题,TRACE采用每月一期、每期10款编辑精选的模式推出TOP10榜单
- 多机构协作:腾讯新闻科技负责推动框架认知与普及、产出精选榜单;SkillHub负责以技能池为样本持续迭代评测体系;腾讯玄武实验室负责搭建自动化评估系统