目前主流第三方评测包括PersonaMem(20个用户画像、6462条上下文、589道推理题)、Terminal-Bench2.0(编码能力)、SWE-benchVerified(软件工程任务)等,为行业建立了权威参照系 认知架构——代表项目包括OpenClaw、ClaudeCode、Hermes与腾讯云AgentMemory,融合情景记忆、语义记忆与动态调度,构建接近人类记忆机制的层次化系统,在PersonaMem等高难评测中得分区间由 底层基于腾讯云向量数据库,在OpenClaw3.7与Kimi-K2.5环境通过PersonaMem评测,验证海量上下文与高难推理题下的记忆稳定性。 评测数据:接入后OpenClaw总体准确率76.10%,较原生提升59%,用户事实召回率由不足30%升至79%以上。复现一致性:基于固定PersonaMem集与统一环境,确保结果可重复验证。 总结与愿景腾讯云AgentMemory在PersonaMem评测中以76.10%准确率与59%提升,超越Full-context基准,破除“上下文越长越好”的迷思,彰显精细记忆管理的价值。
在超长 session 评测中发现,Agent Memory 作为 OpenClaw 插件接入后:最高节省 61.38% Token,通过率相对提升 51.52%;PersonaMem 准确率从 48% 58.40% 64.20% 9.93% 3474.1M 2375.4M −33.09% 短期记忆 AA-LCR 44.00% 47.50% 7.95% 112.0M 77.3M −30.98% 长期记忆 PersonaMem TencentDB Agent Memory 在四个公开评测集上同时跑通了两条曲线:Token 下降,完成率上升。 不过,「跑得稳」不只看评测分数,还得经得起底层架构的拷问——我们用 异构存储 + 全链路可溯源,确保了稳定与全量检索。 评测集 https://github.com/bowen-upenn/PersonaMem OpenClaw https://github.com/openclaw/openclaw Hermes GitHub
测评维度确立:记忆保真度与召回效率本次横评聚焦AgentMemory的核心能力——记忆保真度与召回效率,采用PersonaMem评测集作为统一基准,该评测集包含20个独立画像、6462条海量上下文与589 评测维度涵盖信息提取、主动推断、时间戳认知、事件认知四类核心能力,重点考察各方案在长周期复杂交互场景下的记忆保真与精准召回能力。 在PersonaMem评测集上,接入后OpenClaw总体准确率达到76.10%,较原生提升59%,用户事实召回率由不足30%升至79%以上。 Memori的局限性主要体现在海量上下文处理能力不足,无法在6000+条消息的评测环境下保持稳定召回,这严重限制了其在长周期复杂交互场景中的应用价值。 其在PersonaMem评测集中589道高难推理题的极限挑战下,仍能保持76.10%的准确率,证明了在需要理解长期用户画像、偏好和历史行为的任务中,该方案可以明显提升Agent效果。
在超长session评测中发现,agent memory作为 OpenClaw 插件接入后:最高节省 61.38% Token,通过率相对提升 51.52%;PersonaMem 准确率从 48% 提升到 61.38%短期记忆SWE-bench58.4%64.2%+9.93%3474.1M2375.4M−33.09%短期记忆AA-LCR44.0%47.5%+7.95%112.0M77.3M−30.98%长期记忆PersonaMem48% TencentDB Agent Memory 在四个公开评测集上同时跑通了两条曲线:Token 下降,完成率上升。 不过,「跑得稳」不只看评测分数,还得经得起底层架构的拷问——我们用 异构存储 + 全链路可溯源,确保了稳定与全量检索。 www.npmjs.com/package/@tencentdb-agent-memory/memory-tencentdb官网介绍Agent Memory 智能体记忆服务|AI 长期记忆与精准召回平台PersonaMem
在这个过程中,我前后做了四轮实验:PAB v2:自己构造的合成数据;LoCoMo:真实长对话数据;LongMemEval:长期记忆评测数据集;PersonaMem:人格记忆与长上下文 QA 数据集。 事后看,如果在调研阶段多花 30 分钟仔细看数据结构和评测目标,完全可以避免。 五、第四轮:PersonaMem —— QA 准确率没赢,但 token 成本给了另一个视角第四轮,我探索了 PersonaMem。这是最彻底的一轮实验。 但 PersonaMem 里的大量偏好信息不是这样表达的,而是隐藏在叙事里。 机制验证双向仲裁有效合成数据外部有效性有限LoCoMo真实时间验证遗忘阈值合理controlled injection 不能等同自然冲突LongMemEvalbenchmark 试错数据集名气不等于适配检索评测不等于治理评测
该服务于2026年4月正式发布,通过为OpenClaw等AI应用补充长期记忆能力,使智能体在跨会话、长任务中持续记录用户偏好与任务进度,评测显示接入后整体准确率较原生OpenClaw提升59%。 在OpenClaw3.7框架与Kimi-K2.5模型的真实评测环境下,系统通过了PersonaMem评测集中20个独立画像、6462条海量上下文与589道高难推理题的极限挑战。 评测结果显示,接入后OpenClaw总体准确率达到76.10%,其中用户事实召回等关键指标从原生不足30%提升至79%以上。 技术评估应重点验证系统在长周期复杂交互场景下的记忆保真度与精准召回能力,如是否通过PersonaMem等标准评测集的极限测试。 根据腾讯云披露的数据,基于PersonaMem数据集,接入AgentMemory后准确率从48%提升至76%,任务成功率提升约51%。
为破解这一困局,本次测评锁定极具现实意义的维度——实施效率,即在相同评测集与环境下,各方案接入AIAgent后,达成既定记忆性能指标的速度与完成度。 我们基于PersonaMem评测集(20个独立画像、6462条海量上下文、589道高难推理题),在OpenClaw3.7框架与Kimi-K2.5模型环境中,对主流Agent记忆方案进行排位,让优势与差距一目了然 在PersonaMem高难推理题测试中,原答对不足48题,现稳定答对76题,意味着记忆保真与精准召回能力在复杂场景已实现断层领先。 CEO邓亚峰曾任职360集团、格灵深瞳,团队2025年启动项目,仅用四个月在多项记忆评测达SOTA。
2 ● 评测体系的内容 ● 评测体系可大可小,根据评测的内容而有所不同,一个完整的评测体系应包含: 评测对象 评测属性 评测场景 评测指标 在进行评测体系的设计之前,首先应明确评测对象是什么,可以大到一个系统 有了评测对象后,根据产品的需求或者应解决的问题,就可以确认哪些评测属性,比如准确度,覆盖度,再比如多样性,健壮性等。 评测属性再向下,确认好评测属性的应用场景及指标项,综合形成评测矩阵。 将以上结合,就是一个完整的评测体系。 ? 3 ● 评测体系的设计方法 ● 评测对象相对来说比较明确,接下来就是被测对象的特质进行评测属性的选择,以及确认好评测属性后进行评测矩阵的划分。 评测场景的选择 确认好了评测属性以后,接下来就是针对评测属性进行评测场景的覆盖及指标项的选择。评测场景一般是根据实际应用场景结合实现细节进行敲定。 评测矩阵 当评测属性,评测场景及评测指标一一敲定后,我们可以根据矩阵思想,将属性,场景及指标建立成一个二维矩阵,后续可以按照迭代的版本维护起来,全面的展示该评测对象需要重点评测的全部内容。
分层按需召回机制:不一次性注入全部用户历史,而是根据用户当前任务场景,从长期记忆中精准召回相关偏好、目标与经验,在PersonaMem评测集上,用户事实召回指标从原生不足30%提升至79%以上。 典型实践案例:OpenClaw接入长期个性化记忆模块后,在包含6000+条消息、589道题的PersonaMem评测集上,回答准确率从不到48%提升至76%,相对提升59%。 其记忆服务在OpenClaw3.7框架与Kimi-K2.5模型的真实评测环境下,通过了PersonaMem评测集中20个独立画像、6462条海量上下文与589道高难推理题的极限挑战,全面验证了长周期复杂交互场景下的记忆保真与精准召回能力
评测数据显示,接入该服务后,OpenClaw的总回答准确率高达76.10%,较原生记忆提升近59%。 数据说话,基于 PersonaMem 评测集结果(20个模拟用户画像、6000+条消息、589道测评题):原本 100 个关于“你的问题”,以前只能答对不到 48个,现在能答对 76个。
1 ● 为什么要进行数据展示 ● 在前几次的分享中,设计了好的评测体系、具备了数据挖掘分析能力、选择高效稳定的评测执行工具后,我们会拿到第一手的评测数据。 在我们之前的实践过程中,拿到原始评测数据后会通过观察数据给出一个评测结论。长此以往发现这样并不利于保存数据记录,并且没法反映出一段时间内评测指标的变化趋势。 2 ● 哪些数据需要展现 ● 评测结果展现 对于在评测设计时选定的评测指标,需要准确完整地展现在评测系统中。 我们据此设计了一个评测的结果报告,每次评测完成后会通过该报告给出评测结论: ? 即我们最终展示给用户的评测结论以及各类图标数据,都应当与原始的评测结论、数据保持一致,同时评测结果的展示要与最终上线后预期的结果或趋势保持一致,这样的评测结论才是可信的、有指导意义的。
当前开源大模型中,Mixtral-8x22B-Instruct-v0.1在 MT-Bench(多轮会话&指令遵循)、MMLU(信息知识)中表现基本持平头部开源模型,并比GPT3.5略好,但在TruthfulQA(客观事实)上略逊于头部开源模型。Mixtral模型当前处于开源大模型第一梯队。 但通过Mixtral Demo体验,其支持语言主要为欧洲语系,且在回复质量上还是存在诸如指令遵循、信息冗余、misinfo等明显问题。
公司出了一些自我评测的PHP题目,其中好多题目在面试的时候都会碰到,大家可以看看学习学习。 1. 魔术函数有哪些,分别在什么时候调用?
(注:在评测公链项目时,我把“使用区块链的必要性”调整为了“产品特色与创新”) ◆代币升值逻辑:16/40 这一点看的有点困惑,感觉icon项目代币升值逻辑的不确定性主要体现在两个方面: 一是每年增发与否取决于一个名叫
●总得分:51.1/100分 想做的目标很好,但是产品特色和目前的团队配置可能还需要进一步的补强,未来也有必要根据后续的推动情况,作进一步的动态评测。
2840 WIKIOI——评测 时间限制: 1 s 空间限制: 2000 KB 题目等级 : 白银 Silver 题目描述 Description Wikioi上有一题有N个测试点,时限为
“主观性能感知评测”。 该评测选取主要使用场景,由人工操作与竞品对比,根据执行人员的主观感受来评测应用的流畅度,下面来介绍一下如何制定主观性能评测方案。 APP选取 1. 制定评测标准 由于本评测为主观性能评测,不会有详细数据输出,因此就以是否卡顿制定标准,制定标准如下: 1. 流畅:无任何卡顿感觉,使用顺畅; 2. 一般流畅:没有明显的卡顿感觉,用户难以感知; 3. ,网络环境需要保持一致,最好不要切换网络,如果网络情况不佳,建议更换一个稳定的网络进行评测; 3.每次执行评测时,应用版本不能更换; 4.每次执行评测时,执行人员不能更换; 执行测试 根据测试方案执行表格中的 总结 主观性能感知评测,在评测中是不可缺少的,能直观的反映出应用与竞品在用户使用层面的差距。
AI评测实验室针对TTS前端、后端的存在的问题,选取TTS评测指标,制定各指标评测方法,形成了一套系统的TTS评测方案。 二、评测指标介绍 针对上文提到的前后端可能存在的问题,选择如下指标来评测TTS。 [lf3hxj32az.png] 三、评测方法介绍 本章详细介绍评测时重点关注的发音准确性评测和MOS评测。 评测方法 数字部分的评测方法与符号类似,为加快标注速度直接对前端归一化输出做判断,而不是对测试语料进行标注后再与前端输出结果做比较,形式如下: [lqd2s3xxui.jpg] 3.2 MOS评测 MOS 语料建设 前端的评测通过发音准确、韵律准确等来评测,MOS评测应该专注于整体自然度,因此准备测试语料的时候尽量避开了多音字、符号、数字语料,从各领域和TTS实际应用场景摘选常规文本作为测试语料。
中文脚本 wget -N --no-check-certificate https://raw.githubusercontent.com/FunctionClub/ZBench/master/ZBench-CN.sh && bash ZBench-CN.sh 英文脚本: wget -N --no-check-certificate https://raw.githubusercontent.com/FunctionClub/ZBench/master/ZBench.sh && bash ZBench.s
作为测试,所在项目组上线一个新功能或者评估核心功能品质时,都需要通过评测进行定量评估效果。那么怎样才能更好的评估功能效果,设计出合理的评测方案呢?今天我们以评测功能效果的评测设计方案为例进行讲解。 一、明确评测目的 任何一件事情都是以目标为导向,目标不同,采取的行动方式也会不同。所以,明确评测的目的特别重要。 对要评测功能的实现逻辑掌握程度,决定着思考的评测方案的全面性和合理性。因为只有了解了功能的运行框架逻辑,我们才能分析出哪些因素会影响评估结果,以及评测的维度如何选取。 四、确定评测指标 确定评测维度后,要考虑的就是横向指标。通过评测目的进行指标的演化和拆解,抽取关注的指标。然后通过指标进行二次拆解,分析哪些数据会影响指标的数值。 六、评测执行过程设计 设计评测方案分为两部分:评测执行过程和数据集。 通过前期工作的准备,其实我们已经完成了事情的80%。