🚀 Voila:語音語言基礎模型
Voila是一系列全新的大型語音語言基礎模型,旨在將人機交互體驗提升到新的高度。它突破了傳統語音AI系統的侷限,如高延遲、語音細節丟失和機械回應等問題。Voila採用了創新的端到端模型設計和新穎的分層Transformer架構,能夠實現即時、自主且豐富的語音交互,延遲低至195毫秒,甚至超過了人類的平均反應時間。通過結合先進的語音和語言建模技術,Voila提供了可定製、基於角色的交互方式,並且在從自動語音識別(ASR)、文本轉語音(TTS)到跨六種語言的語音翻譯等一系列音頻任務中表現出色。

Voila: Voice-Language Foundation Models
🌐 項目主頁    |    💻 GitHub    |    🤗 Hugging Face   |    📄 論文    |    🎉 在線演示   |    🏠Maitrix.org
✨ 主要特性
- ⚡ 高保真、低延遲的即時流式音頻處理
- 🤝 有效整合語音和語言建模能力
- 🎭 數百萬個預建和自定義語音,對話中可快速切換語音
- 🛠️ 適用於各種音頻任務的統一模型
🚀 快速開始
命令行界面(CLI)演示
for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
# 文本聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-text "Hello" \
--task-type chat_tito
# 語音聊天
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
done
# 自主模式
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
Gradio演示
python gradio_demo.py
更多信息,請參考 代碼倉庫。
📦 安裝指南
文檔未提供相關安裝步驟,可參考 代碼倉庫 獲取安裝信息。
💻 使用示例
基礎用法
# 文本聊天
python infer.py \
--model-name "maitrix-org/Voila-base" \
--instruction "" \
--input-text "Hello" \
--task-type chat_tito
# 語音聊天
python infer.py \
--model-name "maitrix-org/Voila-base" \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
高級用法
# 自主模式
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
📚 詳細文檔
基礎模型
模型 |
描述 |
下載鏈接 |
Voila-base |
Voila基礎模型 |
https://huggingface.co/maitrix-org/Voila-base |
Voila-Chat |
端到端音頻聊天模型 |
https://huggingface.co/maitrix-org/Voila-chat |
Voila-Autonomous (預覽版) |
全雙工音頻聊天模型 |
https://huggingface.co/maitrix-org/Voila-autonomous-preview |
Voila-Audio-alpha |
支持原始音頻輸入的大語言模型 |
https://huggingface.co/maitrix-org/Voila-audio-alpha |
Voila-Tokenizer |
音頻分詞器 |
https://huggingface.co/maitrix-org/Voila-Tokenizer |
數據集
我們發佈了以下兩個數據集:Voila基準測試集和Voila語音庫。Voila基準測試集是一個新穎的語音評估基準,而Voila語音庫提供了數百萬個預建和可定製的語音。
數據集 |
描述 |
下載鏈接 |
Voila Benchmark |
Voila基準測試評估 |
https://huggingface.co/datasets/maitrix-org/Voila-Benchmark |
Voila Voice Library |
數百萬個預建語音 |
https://huggingface.co/datasets/maitrix-org/Voila-million-voice |
基準測試
1. Voila基準測試
我們引入了一個名為Voila基準測試的新穎語音評估基準。該基準通過從五個廣泛使用的語言模型評估數據集中採樣構建而成:MMLU、MATH、OpenAI HumanEval、NQ-Open和GSM8k。我們將我們的結果與SpeechGPT和Moshi進行了比較。
模型 |
Voila基準測試得分 |
SpeechGPT |
13.29 |
Moshi |
11.45 |
Voila |
30.56 |
(得分越高越好)
有關Voila基準測試在每個特定領域的詳細得分,請參考我們的論文(第5.1節“Voila基準測試評估”)。
2. 自動語音識別(ASR)評估
由於Voila支持多項任務,包括自動語音識別(ASR)、文本轉語音(TTS)和語音問答,我們還評估了ASR和TTS的性能。
對於ASR,我們在LibriSpeech測試清潔數據集上評估性能,使用詞錯誤率(WER)作為指標。Voila的詞錯誤率(WER)達到了4.8%,優於Moshi報告的5.7%。在兩個模型都使用LibriSpeech訓練數據的情況下,Voila實現了令人印象深刻的2.7%的WER。
模型 |
LibriSpeech測試清潔數據集(WER) |
Whisper large v2 |
2.7 |
Whisper large v3 |
2.2 |
FastConformer |
3.6 |
VoxtLM |
2.7 |
Moshi |
5.7 |
Voila(未使用LibriSpeech訓練集) |
4.8 |
Voila(使用LibriSpeech訓練集) |
2.7 |
(得分越低越好)
3. 文本轉語音(TTS)評估
對於TTS,我們遵循Vall - E中提出的評估指標,即使用HuBERT - Large對生成的音頻進行轉錄。
Voila再次領先,WER為3.2%(使用LibriSpeech訓練數據時為2.8%)。
模型 |
LibriSpeech測試清潔數據集(WER) |
YourTTS |
7.7 |
Vall-E |
5.9 |
Moshi |
4.7 |
Voila(未使用LibriSpeech訓練集) |
3.2 |
Voila(使用LibriSpeech訓練集) |
2.8 |
(得分越低越好)
📄 許可證
本項目採用MIT許可證。
📚 引用
如果您覺得我們的工作有幫助,請引用我們:
@article{voila2025,
author = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
title = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
eprint={2505.02707},
archivePrefix={arXiv},
primaryClass={cs.CL},
year = {2025}
}