首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >SkillHub >SkillHub的TRACE评测体系是什么?

SkillHub的TRACE评测体系是什么?

词条归属:SkillHub

1. TRACE评测体系概述

TRACE是SkillHub 首发的一套AI Skill质量评测体系,从五个维度全面评估Skill质量,帮助用户快速识别高质量Skill。

  • 发布背景:2026年5月21日,腾讯新闻科技、SkillHub与腾讯玄武实验室联合发布TRACE框架,这是国内首个面向Skill真实使用场景的严选评测体系
  • 评测对象:以SkillHub平台收录的技能为样本来源,持续迭代评测标准
  • 评测目标:解决AI Skill市场快速增长但质量评估体系滞后的问题,帮助用户判断"哪个Skill真正好用"

2. TRACE五个评测维度详解

TRACE由五个英文字母构成,对应五个评测维度,形成从安全红线到使用过程、再到结果增益的完整判断路径。

T — Trust(可信任度)

  • 核心问题:能不能放心用
  • 评测内容:安全检测、最小权限、敏感信息保护、国内可用性、中文支持
  • 红线维度:触碰安全红线的Skill直接淘汰,不考虑其他维度得分

R — Reliability(可靠性)

  • 核心问题:能不能稳定用
  • 评测内容:稳定运行、一致结果、边界输入处理、异常反馈机制
  • 考察Skill在标准环境下是否能持续工作,避免崩溃、超时、依赖缺失等问题

A — Adaptability(适用性)

  • 核心问题:该不该在这个场景用
  • 评测内容:场景匹配度、触发条件清晰度、能力边界界定、输入输出规范性
  • 评估Agent能否精准识别并在适当场景下调用该Skill

C — Convention(规范性)

  • 核心问题:能不能被理解、维护和复用
  • 评测内容:渐进式披露、文档结构清晰度、限制说明完整性、示例充分性
  • 判断Skill是否具备被理解、被运行、被评测、被复用和持续维护的基础

E — Effectiveness(有效性)

  • 核心问题:是否真正解决用户问题
  • 评测内容:结果正确性、输出完整性、可直接使用性、减少返工率
  • 引入科学对照实验机制:在同一任务下分别测试"启用Skill"与"仅用原生模型"的表现,只有当Skill带来显著真实增益时才被视为合格

3. TRACE评测方法与特色

TRACE采用主客观结合的评测方法,确保评测结果的科学性和公正性。

  • 客观对照实验:通过"no-skill参照组"判断Skill是否真正带来结果增益,避免将模型本身能力误判为Skill贡献
  • 主观盲评:由旗舰模型模拟专业评审,对两组产出进行盲评,聚焦实际交付价值
  • 每月一期精选榜单:为避免全量评分不可持续和头部效应垄断问题,TRACE采用每月一期、每期10款编辑精选的模式推出TOP10榜单
  • 多机构协作:腾讯新闻科技负责推动框架认知与普及、产出精选榜单;SkillHub负责以技能池为样本持续迭代评测体系;腾讯玄武实验室负责搭建自动化评估系统
相关文章
3张图5000字,认真聊聊什么才是好的Skill
2008年7月,苹果App Store上线,首批应用500个,一年后突破10万。后来人们把这一年称为“移动互联网的供给侧元年”,能力的生产者,第一次从科技公司转向了普通开发者。
小腾资讯君
2026-05-22
2570
蹲坑的正确姿势是什么_trace设计软件
   在对手机应用性能分析和定位的过程中Traceview是使用最多的一个工具,在遇到启动时间长界面切换时间长特别卡顿的时候Traceview是首选工具。如果查看界面的帧率问题建议还是先使用GPU配置文件以列表的形式展示在屏幕上这样可以首先发现这个界面的帧率是否有问题再做后续的排查。
全栈程序员站长
2022-11-01
9310
58_大模型评估与评测:构建科学的多维度评测体系
在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。
安全风信子
2025-11-13
1.6K0
Agent 可观测性与评测:从 trace 到回放的完整链路
回顾前三篇文章——Skills 规范、MCP 治理、编排框架选型。它们共同回答了一个问题:怎么把 AI 能力工程化地搭起来。
技术方舟
2026-05-18
6662
WorkBuddy Enterprise 企业级AI平台与Agent生态产品概要
WorkBuddy Enterprise是腾讯云推出的企业级AI平台,针对个人AI提效与组织协同脱节的问题,整合专家能力、云端数字员工助理及团队上下文共享三大核心能力,支持SaaS公有云到私有化部署。产品由CodeBuddy(开发Agent)、WorkBuddy(通用工作Agent)及托管运行PaaS构成,依托腾讯文档、网盘等原生生态实现“读取-处理-回写”闭环。平台覆盖个人提效、组织资产沉淀、开发运维及金融、营销等垂直行业场景,日均Token消耗增长10倍,拥有7万+Skills,在营销云、音视频等领域获IDC市场份额第一等认证,并推出Ardot、天御风控等垂类智能体,未来致力于实现7×24小时运行与组织级智能资产沉淀。
IT资讯研究所
2026-06-09
4160
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券