
在当今的内容创作领域,语音合成技术已经成为了不可或缺的生产力工具。
无论是短视频配音、有声书制作,还是游戏角色语音生成,AI语音都在深刻改变着我们的创作方式。
但长期以来,这个领域一直被国外巨头所主导。从早期的Google TTS,到后来的ElevenLabs,再到 OpenAI 的 Whisper 系列。
不过最近,一款名为 ViiTorVoice 的国产模型横空出世,彻底打破了这个局面。

它不仅在全球权威评测榜单 Seed-TTS 上登顶第一,更以首创的"局部编辑"能力,重新定义了语音合成的可能性。
在当前业界最严苛、公认度最高的TTS标准评测Seed-TTS中,ViiTorVoice交出了一份惊艳的成绩:
特别值得一提的是,ViiTorVoice在中文词错率指标上取得了当前公开评测的最佳成绩,成为全球首个中文词错率突破1.0大关的里程碑模型。
这意味着它在发音准确性和语义还原能力方面,已经达到了行业领先水平。
ViiTorVoice-NAR是一个面向语音克隆与语音局部编辑的非自回归语音生成系统。
它的核心能力远不止简单的语音克隆,而是一套完整的语音创作解决方案。
传统的语音克隆需要提供一段说话人的音频,以及对应的准确文字内容。但ViiTorVoice首创了"无参考文本(Zero-Shot)"的跨语种语音克隆能力,你只需要上传一段声音样本,就能直接生成任意文本的语音。
你不需要知道具体说了什么,只需要截取这段音频,就能让AI用这个声音说出任何你想要的内容。
这是ViiTorVoice最革命性的功能。在真实的生产环境中,更耗费时间的往往不是第一次生成,而是后期修改。
比如:
重新生成一句新的配音并不难,真正耗时耗力的,是如何让修改后的内容与原有音频保持一致,尤其在音色、情绪衔接、停顿突兀、时间轴同步这些细节上。
ViiTorVoice的片段级编辑能力,完美解决了这个难题。
你可以任意替换某个词、某句话、某个片段,就像在Word里修改文字一样简单。系统会自动定位差异区域,只重新合成局部片段,前后过渡天衣无缝。
优秀的配音不仅仅是念对文字,更重要的是传递情感和表达细节。
ViiTorVoice支持在文本条件中插入情感标签和副语言信息,并通过CFG(Classifier-Free Guidance)参数增强控制效果。
你可以这样使用:
<|emotion-happy|>我终于完成了这个项目,感觉真的很开心。
<|emotion-sad|>听到这个消息,我感到非常难过。这种细粒度的情感控制,让AI生成的语音不再是冷冰冰的机械音,而是充满了人情味和表现力。
在实时交互场景中,延迟是致命的。ViiTorVoice采用非自回归架构,支持first block推理模式,端到端首帧返回时间可以做到约60ms,5秒音频可以在100ms内生成,推理速度达到40倍实时。
下面是完整的安装和使用指南。
首先,确保你的系统满足以下要求:
git clone https://github.com/viitor-ai/viitor-voice-nar.git
cd viitor-voice-nar
bash init_env.shinit_env.sh脚本会自动创建虚拟环境并安装所有依赖,非常省心。
模型文件需要下载到local_models/目录下,不要使用软链接。
mkdir -p local_models
huggingface-cli download ZzWater/ViiTorVoice-NAR \
--local-dir local_models \
--local-dir-use-symlinks False模型地址:https://huggingface.co/ZzWater/ViiTorVoice-NAR
./run_grpc_v2.sh start all服务启动后,可以通过以下命令查看状态:
./run_grpc_v2.sh status all默认HTTP服务监听在0.0.0.0:7861,本机访问地址为http://127.0.0.1:7861。
健康检查
curl "http://127.0.0.1:7861/health"语音克隆(无参考文本)
curl -X POST "http://127.0.0.1:7861/v1/voice-clone" \
-F 'ref_audio=@prompt.wav' \
-F 'text=今天天气不错,我们下午一起去公园散步吧。' \
-F 'language=zh' \
-F 'allow_missing_ref_text=true' \
--output clone.wav情感控制
curl -X POST "http://127.0.0.1:7861/v1/voice-clone" \
-F 'ref_audio=@prompt.wav' \
-F 'text=<|emotion-happy|>I finally finished the project, and I feel really happy.' \
-F 'language=en' \
-F 'emotion_guidance_scale=6.0' \
-F 'nvv_guidance_scale=2.0' \
--output clone_emotion.wav局部编辑
curl -X POST "http://127.0.0.1:7861/v1/text-local-edit" \
-F 'source_audio=@source.wav' \
-F 'original_text=Please send the meeting notes before Friday.' \
-F 'edited_text=Please send the meeting notes before Monday.' \
-F 'language=en' \
-F 'align_granularity=word' \
-F 'expand_mask_ratio=1.5' \
-F 'output_format=wav' \
--output edited.wavViiTorVoice的强大能力,让它在多个领域都有广泛的应用前景:
ViiTorVoice-NAR 的出现,更以创新的"局部编辑"能力,为语音合成领域带来了革命性的变化。
它让我们看到,中国的 AI 技术正在某些领域实现弯道超车,走在世界前列。
GitHub:https://github.com/viitor-ai/viitor-voice-nar
模型:https://huggingface.co/ZzWater/ViiTorVoice-NAR
Demo:https://huggingface.co/spaces/ZzWater/ViiTorVoice
如果本文对您有帮助,也请帮忙点个 赞👍 哈!❤️