🚀 Voila:語音 - 語言基礎模型
Voila 是一系列全新的大型語音 - 語言基礎模型,旨在將人機交互體驗提升到新的高度。它突破了傳統語音 AI 系統的侷限,如高延遲、語音細節丟失和機械響應等問題。Voila 採用了創新的端到端模型設計和新穎的分層 Transformer 架構,實現了即時、自主且豐富的語音交互,延遲低至 195 毫秒,超越了人類的平均響應時間。結合先進的語音和語言建模技術,Voila 提供了可定製、基於角色的交互方式,並且在從自動語音識別(ASR)、文本轉語音(TTS)到跨六種語言的語音翻譯等一系列音頻任務中表現出色。

Voila: Voice-Language Foundation Models
項目主頁    |    GitHub    |    Hugging Face   |    論文    |    在線演示   |    Maitrix.org
✨ 主要特性
- 高保真、低延遲的即時流式音頻處理。
- 有效整合語音和語言建模能力。
- 擁有數百萬個預建和自定義語音,對話中可快速切換語音。
- 統一模型適用於各種音頻任務。
📺 視頻演示

📢 最新消息
- 2025 年 4 月 28 日:我們發佈了 Voila 的推理代碼和模型權重。
📦 基礎模型
💻 使用示例
基礎用法
CLI 演示
for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
# 文本聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-text "Hello" \
--task-type chat_tito
# 語音聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
done
# 自主模式
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
Gradio 演示
python gradio_demo.py
更多信息,請參考 代碼倉庫。
📊 數據集
我們發佈了以下兩個數據集:Voila 基準測試集和 Voila 語音庫。Voila 基準測試集是一個新穎的語音評估基準,而 Voila 語音庫提供了數百萬個預建和可定製的語音。
🧪 基準測試
1. Voila 基準測試
我們引入了一個名為 Voila 基準測試的新穎語音評估基準。該基準通過從五個廣泛使用的語言模型評估數據集中採樣構建而成,包括 MMLU、MATH、OpenAI HumanEval、NQ - Open 和 GSM8k。我們將我們的結果與 SpeechGPT 和 Moshi 進行了比較。
模型 |
Voila 基準測試得分 |
SpeechGPT |
13.29 |
Moshi |
11.45 |
Voila |
30.56 |
(分數越高越好)
有關 Voila 基準測試在每個特定領域的詳細分數,請參考我們的論文(第 5.1 節“Voila 基準測試評估”)。
2. 自動語音識別(ASR)評估
由於 Voila 支持多項任務,包括自動語音識別(ASR)、文本轉語音(TTS)和語音問答,我們還評估了 ASR 和 TTS 的性能。對於 ASR,我們在 LibriSpeech test - clean 數據集上進行評估,使用詞錯誤率(WER)作為指標。Voila 的詞錯誤率(WER)達到了 4.8%,優於 Moshi 報告的 5.7%。在兩個模型都使用 LibriSpeech 訓練數據的情況下,Voila 實現了令人印象深刻的 2.7% 的 WER。
模型 |
LibriSpeech test - clean(WER) |
Whisper large v2 |
2.7 |
Whisper large v3 |
2.2 |
FastConformer |
3.6 |
VoxtLM |
2.7 |
Moshi |
5.7 |
Voila(未使用 LibriSpeech 訓練集) |
4.8 |
Voila(使用 LibriSpeech 訓練集) |
2.7 |
(分數越低越好)
3. 文本轉語音(TTS)評估
對於 TTS,我們遵循 Vall - E 中提出的評估指標,即使用 HuBERT - Large 對生成的音頻進行轉錄。Voila 再次領先,WER 為 3.2%(使用 LibriSpeech 訓練數據時為 2.8%)。
模型 |
LibriSpeech test - clean(WER) |
YourTTS |
7.7 |
Vall - E |
5.9 |
Moshi |
4.7 |
Voila(未使用 LibriSpeech 訓練集) |
3.2 |
Voila(使用 LibriSpeech 訓練集) |
2.8 |
(分數越低越好)
📄 引用
如果您覺得我們的工作有幫助,請引用我們:
@article{voila2025,
author = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
title = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
eprint={2505.02707},
archivePrefix={arXiv},
primaryClass={cs.CL},
year = {2025}
}
📜 許可證
本項目採用 MIT 許可證。