首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >首个语音智能体端到端测评出炉:Grok登顶,真实场景通过率仅一半

首个语音智能体端到端测评出炉:Grok登顶,真实场景通过率仅一半

作者头像
用户11563501
发布2026-06-23 14:06:28
发布2026-06-23 14:06:28
860
举报

Artificial Analysis推出业内首个语音转语音(S2S)智能体端到端性能基准τ-Voice,专门测试语音智能体在真实客服场景下的工具调用和多轮交互能力。

此前语音智能体测评大多停留在转录准确率、单轮响应延迟这些基础指标,很少关注模型能不能真正帮用户完成改机票、处理退货这类完整流程。τ-Voice补上了这个缺口,测试场景完全贴近真实生产环境:给模拟用户加上不同口音、背景噪音,模拟真实网络下的丢包情况,任务覆盖航空、零售、电信三个常见客服领域,共278个真实场景,最终通过任务完成后的数据库状态判断是否成功。

测试结果打破了不少人的认知:哪怕目前最强的S2S模型,端到端完整解决真实客服任务的成功率也刚过一半,和同任务下顶级文本智能体的表现差距明显。

各模型端到端任务成功率对比
各模型端到端任务成功率对比

各模型端到端任务成功率对比

这份测评结果出来后,马斯克第一时间在X平台转发,时间是2026年5月12日。他旗下xAI的Grok Voice Think Fast 1.0拿下第一,解决率达到52.1%。具体排名里,第二名OpenAI GPT-Realtime-2(High)成功率39.8%,GPT-Realtime-1.5以38.8%排第三,谷歌Gemini 3.1 Flash Live Preview - High以37.7%排第四。Grok成绩比OpenAI几天前刚发布的GPT-Realtime-2 High版本高出12.3个百分点,甩开二三名不少。完整排名如下:

Agentic Performance(τ-Voice)测试结果
Agentic Performance(τ-Voice)测试结果

Agentic Performance(τ-Voice)测试结果

除了任务成功率,测评还统计了每个模型的平均对话时长,这个指标直接关系用户体验和企业运营成本。所有模型平均对话时长都控制在7分钟以内,最短的是Gemini 2.5 Flash Native Audio Preview,仅2.4分钟;最长的是GPT Realtime Mini,达6.4分钟;排名第一的Grok Voice Think Fast 1.0平均对话时长5.6分钟,排在第二。

各模型平均对话时长对比
各模型平均对话时长对比

各模型平均对话时长对比

发布测评的X用户XFreeze提到,Grok能实现实时后台推理,同时不带来额外延迟,这也是它已经能规模化自主处理Starlink电话客服的原因。马斯克转发后,直接邀请用户尝试Grok Voice功能。此前马斯克曾提到,Grok用到了和物理学研究同等级别的算力,甚至可以输出物理精度的黑洞模拟,相关视频如下:

推文发出后引来上千条讨论,各方观点差异不小。

有从业者认为,在延迟不增加的前提下实现性能提升,是实打实的技术突破,语音AI竞争已经进入新阶段。也有网友调侃,从性能差距看,Grok已经把OpenAI甩得看不见尾灯,马斯克从卫星到语音客服的全链路整合,已经超出很多公司的布局节奏。业内对这个基准的推出普遍认可,有网友指出,之前大部分测评都停留在转录质量,真实流程里的智能体成功率才是生产环境真正关心的指标。

但质疑的声音也不少。

有普通用户反馈,Grok Voice目前语音选项少,部分语音效果不佳,付费SuperGrok用户已经被限制使用次数,实际使用还会遇到连接问题和速率限制。老用户吐槽,Grok长期缺乏长时记忆,除了闲聊和简单搜索,没法用在工作或学习场景。也有用户反馈,多次试用下来实际体验不如ChatGPT,不推荐使用。

从技术视角看,争议主要集中在三点:

第一,不少人提到,现在AI行业基准测试类似F1赛车,测试成绩不代表实际使用体验,测评领先不代表产品更好用。

第二,就算测试成绩好看,真实场景的复杂对话才是试金石。有用户举例,用户凌晨投诉包裹延误、全程情绪激动还频繁改诉求,这种场景下多少顶流模型都会掉链子。更关键的是,目前还没有语音模型能解决长对话中的事实一致性问题——声音自然但全程瞎编,还不如声音机械但说的都对。

第三,已有实际用户反馈,Grok Voice虽然速度快,但经常给出肤浅甚至错误的答案,Grok自己都承认"跑分调优是最大的原因"。

用户反馈Grok Voice存在事实错误问题
用户反馈Grok Voice存在事实错误问题

用户反馈Grok Voice存在事实错误问题

有网友提出更尖锐的观点:基准里的52%已经是理想测试环境的结果,放到真实呼叫中心的复杂场景里,实际成功率只会更低。还有人补充,现在只测了最终工具调用成功率,中途模型出错后的恢复能力才是真正难点,也是未来基准需要补上的部分。还有网友点出,现在说规模化落地自动语音客服,本质是把人工审核成本转移到了其他部门——速度是功能,可靠才是产品。

目前已经有用户放出Grok Voice实际体验视频,感兴趣可以查看:

可以确定的是,语音AI已经成为当前巨头竞争的核心战场,几乎每隔几周就有性能层面的新突破。语音转语音智能体还是一个快速进化的领域,这次测评只是一个起点,未来随着模型能力提升,排名肯定还会变化。但这个基准已经照出了行业现状:语音智能体还远没到"解决"的阶段,真实复杂环境下的可靠性,才是接下来要啃的硬骨头。跑分只是第一步,真正能在实际场景站稳,还需要解决事实准确、延迟稳定、长对话记忆这些用户真能感知到的问题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI工程化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档