云端语音转录已经司空见惯,但完全离线的实时转录方案才刚刚成熟。Liquid AI发布的首个端到端音频基础模型LFM2-Audio-1.5B证明了一点:1.5B参数足以在本地设备上处理高质量的端到端音频任务。
它的核心架构包括:
除了小之外,更重要的是它是一个统一的多模态模型,不需要单独的ASR和TTS组件,既能做语音转文字,也能做文字转语音,还能处理混合的多轮对话。

模型支持两种不同的生成策略:
这种灵活性让同一个模型能适应不同的使用场景。
从官方介绍看,以下是三种典型场景用法:
1. 语音转文字(ASR)
./llama-lfm2-audio \\
-m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \\
--mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \\
-mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \\
-sys "Perform ASR." \\
--audio $INPUT_WAV2. 文字转语音(TTS)
./llama-lfm2-audio \\
-m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \\
--mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \\
-mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \\
-sys "Perform TTS." \\
-p "My name is Pau Labarta Bajo and I love AI" \\
--output $OUTPUT_WAV3. 带语音指令的TTS
./llama-lfm2-audio \\
-m $CKPT/LFM2-Audio-1.5B-Q8_0.gguf \\
--mmproj $CKPT/mmproj-audioencoder-LFM2-Audio-1.5B-Q8_0.gguf \\
-mv $CKPT/audiodecoder-LFM2-Audio-1.5B-Q8_0.gguf \\
-sys "Perform TTS.
Use the following voice: A male speaker delivers a very expressive and animated speech, with a low-pitch voice and a slightly close-sounding tone. The recording carries a slight background noise." \\
-p "What is your name man?" \\
--output $OUTPUT_WAV虽然参数量不大,但性能不输竞争者。在VoiceBench音频输入测试中,LFM2-Audio-1.5B的综合得分达到56.78,超越了7B参数的Moshi模型(29.51分)。在ASR任务上,它的平均词错率(WER)为7.24%,与专门的Whisper-large-V3(7.93%)相当。
更有意思的对比是与Qwen2.5-Omni-3B的较量。后者参数量是LFM2的3倍多,但在多数指标上两者表现接近,这证明了Liquid AI在模型效率优化上的功力。
不过当前该模型还仅支持英文,在使用场景上有所限制。
小结
本地优先是很多应用追求的理念。确保数据隐私,不依赖网络的优势使得这类方案有大量的场景。
对于AI来讲,本地优先也将会成为重要的流行趋势。对于寻找此类解决方案的朋友可以关注。
地址:https://github.com/Liquid4All/liquid-audio