🚀 Voila:语音语言基础模型
Voila是一系列全新的大型语音语言基础模型,旨在将人机交互体验提升到新的高度。它突破了传统语音AI系统的局限,如高延迟、语音细节丢失和机械回应等问题。Voila采用了创新的端到端模型设计和新颖的分层Transformer架构,能够实现实时、自主且丰富的语音交互,延迟低至195毫秒,甚至超过了人类的平均反应时间。通过结合先进的语音和语言建模技术,Voila提供了可定制、基于角色的交互方式,并且在从自动语音识别(ASR)、文本转语音(TTS)到跨六种语言的语音翻译等一系列音频任务中表现出色。

Voila: Voice-Language Foundation Models
🌐 项目主页    |    💻 GitHub    |    🤗 Hugging Face   |    📄 论文    |    🎉 在线演示   |    🏠Maitrix.org
✨ 主要特性
- ⚡ 高保真、低延迟的实时流式音频处理
- 🤝 有效整合语音和语言建模能力
- 🎭 数百万个预建和自定义语音,对话中可快速切换语音
- 🛠️ 适用于各种音频任务的统一模型
🚀 快速开始
命令行界面(CLI)演示
for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
# 文本聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-text "Hello" \
--task-type chat_tito
# 语音聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
done
# 自主模式
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
Gradio演示
python gradio_demo.py
更多信息,请参考 代码仓库。
📦 安装指南
文档未提供相关安装步骤,可参考 代码仓库 获取安装信息。
💻 使用示例
基础用法
# 文本聊天
python infer.py \
--model-name "maitrix-org/Voila-base" \
--instruction "" \
--input-text "Hello" \
--task-type chat_tito
# 语音聊天
python infer.py \
--model-name "maitrix-org/Voila-base" \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
高级用法
# 自主模式
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
📚 详细文档
基础模型
模型 |
描述 |
下载链接 |
Voila-base |
Voila基础模型 |
https://huggingface.co/maitrix-org/Voila-base |
Voila-Chat |
端到端音频聊天模型 |
https://huggingface.co/maitrix-org/Voila-chat |
Voila-Autonomous (预览版) |
全双工音频聊天模型 |
https://huggingface.co/maitrix-org/Voila-autonomous-preview |
Voila-Audio-alpha |
支持原始音频输入的大语言模型 |
https://huggingface.co/maitrix-org/Voila-audio-alpha |
Voila-Tokenizer |
音频分词器 |
https://huggingface.co/maitrix-org/Voila-Tokenizer |
数据集
我们发布了以下两个数据集:Voila基准测试集和Voila语音库。Voila基准测试集是一个新颖的语音评估基准,而Voila语音库提供了数百万个预建和可定制的语音。
数据集 |
描述 |
下载链接 |
Voila Benchmark |
Voila基准测试评估 |
https://huggingface.co/datasets/maitrix-org/Voila-Benchmark |
Voila Voice Library |
数百万个预建语音 |
https://huggingface.co/datasets/maitrix-org/Voila-million-voice |
基准测试
1. Voila基准测试
我们引入了一个名为Voila基准测试的新颖语音评估基准。该基准通过从五个广泛使用的语言模型评估数据集中采样构建而成:MMLU、MATH、OpenAI HumanEval、NQ-Open和GSM8k。我们将我们的结果与SpeechGPT和Moshi进行了比较。
模型 |
Voila基准测试得分 |
SpeechGPT |
13.29 |
Moshi |
11.45 |
Voila |
30.56 |
(得分越高越好)
有关Voila基准测试在每个特定领域的详细得分,请参考我们的论文(第5.1节“Voila基准测试评估”)。
2. 自动语音识别(ASR)评估
由于Voila支持多项任务,包括自动语音识别(ASR)、文本转语音(TTS)和语音问答,我们还评估了ASR和TTS的性能。
对于ASR,我们在LibriSpeech测试清洁数据集上评估性能,使用词错误率(WER)作为指标。Voila的词错误率(WER)达到了4.8%,优于Moshi报告的5.7%。在两个模型都使用LibriSpeech训练数据的情况下,Voila实现了令人印象深刻的2.7%的WER。
模型 |
LibriSpeech测试清洁数据集(WER) |
Whisper large v2 |
2.7 |
Whisper large v3 |
2.2 |
FastConformer |
3.6 |
VoxtLM |
2.7 |
Moshi |
5.7 |
Voila(未使用LibriSpeech训练集) |
4.8 |
Voila(使用LibriSpeech训练集) |
2.7 |
(得分越低越好)
3. 文本转语音(TTS)评估
对于TTS,我们遵循Vall - E中提出的评估指标,即使用HuBERT - Large对生成的音频进行转录。
Voila再次领先,WER为3.2%(使用LibriSpeech训练数据时为2.8%)。
模型 |
LibriSpeech测试清洁数据集(WER) |
YourTTS |
7.7 |
Vall-E |
5.9 |
Moshi |
4.7 |
Voila(未使用LibriSpeech训练集) |
3.2 |
Voila(使用LibriSpeech训练集) |
2.8 |
(得分越低越好)
📄 许可证
本项目采用MIT许可证。
📚 引用
如果您觉得我们的工作有帮助,请引用我们:
@article{voila2025,
author = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
title = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
eprint={2505.02707},
archivePrefix={arXiv},
primaryClass={cs.CL},
year = {2025}
}