首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >1.5B参数!支持本地实时语音转录

1.5B参数!支持本地实时语音转录

作者头像
用户11563501
发布2026-06-23 11:30:55
发布2026-06-23 11:30:55
870
举报

云端语音转录已经司空见惯,但完全离线的实时转录方案才刚刚成熟。Liquid AI发布的首个端到端音频基础模型LFM2-Audio-1.5B证明了一点:1.5B参数足以在本地设备上处理高质量的端到端音频任务。

它的核心架构包括:

  • 语言模型骨干:1.2B参数的LFM2模型
  • 音频编码器:基于FastConformer的115M参数编码器
  • 音频分词器:使用Kyutai的Mimi,支持8个码本
  • 上下文长度:32,768个token
  • 支持精度:bfloat16

除了小之外,更重要的是它是一个统一的多模态模型,不需要单独的ASR和TTS组件,既能做语音转文字,也能做文字转语音,还能处理混合的多轮对话。

diagram.gif
diagram.gif

模型支持两种不同的生成策略:

  1. 交错生成:文本和音频token按固定模式交替输出,最小化首次音频输出时间,适合实时语音对话
  2. 顺序生成:模型通过特殊token决定何时切换模态,适合ASR或TTS等非对话任务

这种灵活性让同一个模型能适应不同的使用场景。

从官方介绍看,以下是三种典型场景用法:

1. 语音转文字(ASR)

代码语言:javascript
复制
./llama-lfm2-audio \\
    -m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \\
    --mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \\
    -mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \\
    -sys "Perform ASR." \\
    --audio $INPUT_WAV

2. 文字转语音(TTS)

代码语言:javascript
复制
./llama-lfm2-audio \\
    -m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \\
    --mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \\
    -mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \\
    -sys "Perform TTS." \\
    -p "My name is Pau Labarta Bajo and I love AI" \\
    --output $OUTPUT_WAV

3. 带语音指令的TTS

代码语言:javascript
复制
./llama-lfm2-audio \\
    -m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \\
    --mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \\
    -mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \\
    -sys "Perform TTS.
    Use the following voice: A male speaker delivers a very expressive and animated speech, with a low-pitch voice and a slightly close-sounding tone. The recording carries a slight background noise." \\
    -p "What is your name man?" \\
    --output $OUTPUT_WAV

虽然参数量不大,但性能不输竞争者。在VoiceBench音频输入测试中,LFM2-Audio-1.5B的综合得分达到56.78,超越了7B参数的Moshi模型(29.51分)。在ASR任务上,它的平均词错率(WER)为7.24%,与专门的Whisper-large-V3(7.93%)相当。

更有意思的对比是与Qwen2.5-Omni-3B的较量。后者参数量是LFM2的3倍多,但在多数指标上两者表现接近,这证明了Liquid AI在模型效率优化上的功力。

不过当前该模型还仅支持英文,在使用场景上有所限制。

小结

本地优先是很多应用追求的理念。确保数据隐私,不依赖网络的优势使得这类方案有大量的场景。

对于AI来讲,本地优先也将会成为重要的流行趋势。对于寻找此类解决方案的朋友可以关注。

地址:https://github.com/Liquid4All/liquid-audio

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI工程化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档