🚀 Voila:語音語言基礎模型
Voila 是一系列全新的大型語音語言基礎模型,旨在將人機交互體驗提升到新的高度。它突破了傳統語音 AI 系統高延遲、丟失語音細微差別和機械響應的限制,採用了創新的端到端模型設計和新穎的分層 Transformer 架構。這種方法能夠實現即時、自主且豐富的語音交互,延遲低至 195 毫秒,超越了人類的平均響應時間。結合先進的語音和語言建模,Voila 提供可定製的、基於角色的交互,並在從自動語音識別(ASR)和文本轉語音(TTS)到跨六種語言的語音翻譯等一系列音頻任務中表現出色。

Voila: Voice-Language Foundation Models
🌐 項目主頁    |    🐙 GitHub    |   🤗 Hugging Face   |    📄 論文    |    💻 在線演示   |    🏢Maitrix.org
✨ 主要特性
- 高保真、低延遲的即時流式音頻處理
- 有效整合語音和語言建模能力
- 數百萬個預建和自定義語音,對話中可快速切換語音
- 適用於各種音頻任務的統一模型
📦 安裝指南
文檔未提供安裝步驟,暫不展示。
💻 使用示例
基礎用法
CLI 演示
for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
# 文本聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-text "Hello" \
--task-type chat_tito
# 語音聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
done
# 自主模式
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
Gradio 演示
python gradio_demo.py
更多信息,請參考 代碼倉庫。
📚 詳細文檔
基礎模型
模型 |
描述 |
下載鏈接 |
Voila-base |
Voila 基礎模型 |
https://huggingface.co/maitrix-org/Voila-base |
Voila-Chat |
端到端音頻聊天模型 |
https://huggingface.co/maitrix-org/Voila-chat |
Voila-Autonomous (預覽版) |
全雙工音頻聊天模型 |
https://huggingface.co/maitrix-org/Voila-autonomous-preview |
Voila-Audio-alpha |
支持原始音頻輸入的大語言模型 |
https://huggingface.co/maitrix-org/Voila-audio-alpha |
Voila-Tokenizer |
音頻分詞器 |
https://huggingface.co/maitrix-org/Voila-Tokenizer |
數據集
我們發佈了以下兩個數據集:Voila 基準測試集和 Voila 語音庫。Voila 基準測試集是一個新穎的語音評估基準,而 Voila 語音庫提供了數百萬個預建和可定製的語音。
數據集 |
描述 |
下載鏈接 |
Voila 基準測試集 |
Voila 基準測試評估 |
https://huggingface.co/datasets/maitrix-org/Voila-Benchmark |
Voila 語音庫 |
數百萬個預建語音 |
https://huggingface.co/datasets/maitrix-org/Voila-million-voice |
基準測試
1. Voila 基準測試
我們引入了一個名為 Voila 基準測試的新穎語音評估基準。Voila 基準測試是從五個廣泛使用的語言模型評估數據集(MMLU、MATH、OpenAI HumanEval、NQ-Open 和 GSM8k)中採樣構建的。我們將我們的結果與 SpeechGPT 和 Moshi 進行了比較。
模型 |
Voila 基準測試得分 |
SpeechGPT |
13.29 |
Moshi |
11.45 |
Voila |
30.56 |
(分數越高越好)
有關 Voila 基準測試在每個特定領域的詳細分數,請參考我們的論文(第 5.1 節“Voila 基準測試評估”)。
2. 自動語音識別(ASR)評估
由於 Voila 支持多項任務,包括自動語音識別(ASR)、文本轉語音(TTS)和語音問答,我們還評估了 ASR 和 TTS 的性能。對於 ASR,我們在 LibriSpeech test-clean 數據集上評估性能,使用詞錯誤率(WER)作為指標。Voila 的詞錯誤率(WER)為 4.8%,優於 Moshi 報告的 5.7%。在兩個模型都使用 LibriSpeech 訓練數據的情況下,Voila 實現了令人印象深刻的 2.7% 的 WER。
模型 |
LibriSpeech test-clean 數據集(WER) |
Whisper large v2 |
2.7 |
Whisper large v3 |
2.2 |
FastConformer |
3.6 |
VoxtLM |
2.7 |
Moshi |
5.7 |
Voila(未使用 LibriSpeech 訓練集) |
4.8 |
Voila(使用 LibriSpeech 訓練集) |
2.7 |
(分數越低越好)
3. 文本轉語音(TTS)評估
對於 TTS,我們遵循 Vall-E 中提出的評估指標,即使用 HuBERT-Large 對生成的音頻進行轉錄。Voila 再次領先,WER 為 3.2%(使用 LibriSpeech 訓練數據時為 2.8%)。
模型 |
LibriSpeech test-clean 數據集(WER) |
YourTTS |
7.7 |
Vall-E |
5.9 |
Moshi |
4.7 |
Voila(未使用 LibriSpeech 訓練集) |
3.2 |
Voila(使用 LibriSpeech 訓練集) |
2.8 |
(分數越低越好)
🔧 技術細節
文檔未提供技術實現細節,暫不展示。
📄 許可證
本項目採用 MIT 許可證。
📚 引用
如果您覺得我們的工作有幫助,請引用我們的論文:
@article{voila2025,
author = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
title = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
eprint={2505.02707},
archivePrefix={arXiv},
primaryClass={cs.CL},
year = {2025}
}