Voila-audio-alpha開源語音模型 - 支持多語言，實現即時低延遲語音交互

首頁

Voila Audio Alpha

由maitrix-org開發

Voila是一個大型語音-語言基礎模型家族，旨在提升人機交互體驗，支持即時、低延遲的語音交互和多語言處理。

文本生成音頻

Transformers

支持多種語言開源協議:MIT #即時語音交互 #多語言語音合成 #低延遲流式處理

下載量 175

發布時間 : 3/18/2025

模型概述

Voila通過創新的端到端模型設計和分層Transformer架構，實現了高保真、低延遲的語音交互，支持多種音頻任務，包括ASR、TTS和語音翻譯。

模型特點

高保真、低延遲

支持即時流式音頻處理，延遲低至195毫秒。

多語言支持

支持六種語言的自動語音識別（ASR）、文本轉語音（TTS）和語音翻譯。

語音與語言建模整合

高效整合語音和語言建模能力，提供豐富的交互體驗。

數百萬預構建語音

支持數百萬預構建及自定義語音，可在對話中快速切換。

模型能力

即時語音交互

自動語音識別（ASR）

文本轉語音（TTS）

語音翻譯

多語言處理

使用案例

語音交互

即時語音聊天

支持低延遲的即時語音聊天，適用於客服、虛擬助手等場景。

延遲低至195毫秒，超越人類平均反應時間。

語音合成

高保真語音合成

生成自然、高保真的語音輸出，適用於有聲書、導航等場景。

詞錯誤率（WER）為3.2%（未使用LibriSpeech訓練數據時）。

🚀 Voila：語音語言基礎模型

Voila是一系列全新的大型語音語言基礎模型，旨在將人機交互體驗提升到新的高度。它突破了傳統語音AI系統的侷限，如高延遲、語音細節丟失和機械回應等問題。Voila採用了創新的端到端模型設計和新穎的分層Transformer架構，能夠實現即時、自主且豐富的語音交互，延遲低至195毫秒，甚至超過了人類的平均反應時間。通過結合先進的語音和語言建模技術，Voila提供了可定製、基於角色的交互方式，並且在從自動語音識別（ASR）、文本轉語音（TTS）到跨六種語言的語音翻譯等一系列音頻任務中表現出色。

✨ 主要特性

⚡ 高保真、低延遲的即時流式音頻處理
🤝 有效整合語音和語言建模能力
🎭 數百萬個預建和自定義語音，對話中可快速切換語音
🛠️ 適用於各種音頻任務的統一模型

🚀 快速開始

命令行界面（CLI）演示

for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
    # 文本聊天
    python infer.py \
        --model-name ${model_name} \
        --instruction "" \
        --input-text "Hello" \
        --task-type chat_tito
    # 語音聊天
    python infer.py \
        --model-name ${model_name} \
        --instruction "" \
        --input-audio "examples/test1.mp3" \
        --task-type chat_aiao
done

# 自主模式
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
    --instruction "" \
    --input-audio "examples/test_autonomous1.mp3" \
    --task-type chat_aiao_auto

Gradio演示

python gradio_demo.py

更多信息，請參考代碼倉庫。

📦 安裝指南

文檔未提供相關安裝步驟，可參考代碼倉庫獲取安裝信息。

💻 使用示例

基礎用法

# 文本聊天
python infer.py \
    --model-name "maitrix-org/Voila-base" \
    --instruction "" \
    --input-text "Hello" \
    --task-type chat_tito

# 語音聊天
python infer.py \
    --model-name "maitrix-org/Voila-base" \
    --instruction "" \
    --input-audio "examples/test1.mp3" \
    --task-type chat_aiao

高級用法

# 自主模式
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
    --instruction "" \
    --input-audio "examples/test_autonomous1.mp3" \
    --task-type chat_aiao_auto

📚 詳細文檔

基礎模型

模型	描述	下載鏈接
Voila-base	Voila基礎模型	https://huggingface.co/maitrix-org/Voila-base
Voila-Chat	端到端音頻聊天模型	https://huggingface.co/maitrix-org/Voila-chat
Voila-Autonomous (預覽版)	全雙工音頻聊天模型	https://huggingface.co/maitrix-org/Voila-autonomous-preview
Voila-Audio-alpha	支持原始音頻輸入的大語言模型	https://huggingface.co/maitrix-org/Voila-audio-alpha
Voila-Tokenizer	音頻分詞器	https://huggingface.co/maitrix-org/Voila-Tokenizer

數據集

我們發佈了以下兩個數據集：Voila基準測試集和Voila語音庫。Voila基準測試集是一個新穎的語音評估基準，而Voila語音庫提供了數百萬個預建和可定製的語音。

數據集	描述	下載鏈接
Voila Benchmark	Voila基準測試評估	https://huggingface.co/datasets/maitrix-org/Voila-Benchmark
Voila Voice Library	數百萬個預建語音	https://huggingface.co/datasets/maitrix-org/Voila-million-voice

基準測試

1. Voila基準測試

我們引入了一個名為Voila基準測試的新穎語音評估基準。該基準通過從五個廣泛使用的語言模型評估數據集中採樣構建而成：MMLU、MATH、OpenAI HumanEval、NQ-Open和GSM8k。我們將我們的結果與SpeechGPT和Moshi進行了比較。

模型	Voila基準測試得分
SpeechGPT	13.29
Moshi	11.45
Voila	30.56

（得分越高越好）

有關Voila基準測試在每個特定領域的詳細得分，請參考我們的論文（第5.1節“Voila基準測試評估”）。

2. 自動語音識別（ASR）評估

由於Voila支持多項任務，包括自動語音識別（ASR）、文本轉語音（TTS）和語音問答，我們還評估了ASR和TTS的性能。

對於ASR，我們在LibriSpeech測試清潔數據集上評估性能，使用詞錯誤率（WER）作為指標。Voila的詞錯誤率（WER）達到了4.8%，優於Moshi報告的5.7%。在兩個模型都使用LibriSpeech訓練數據的情況下，Voila實現了令人印象深刻的2.7%的WER。

模型	LibriSpeech測試清潔數據集（WER）
Whisper large v2	2.7
Whisper large v3	2.2
FastConformer	3.6
VoxtLM	2.7
Moshi	5.7
Voila（未使用LibriSpeech訓練集）	4.8
Voila（使用LibriSpeech訓練集）	2.7

（得分越低越好）

3. 文本轉語音（TTS）評估

對於TTS，我們遵循Vall - E中提出的評估指標，即使用HuBERT - Large對生成的音頻進行轉錄。

Voila再次領先，WER為3.2%（使用LibriSpeech訓練數據時為2.8%）。

模型	LibriSpeech測試清潔數據集（WER）
YourTTS	7.7
Vall-E	5.9
Moshi	4.7
Voila（未使用LibriSpeech訓練集）	3.2
Voila（使用LibriSpeech訓練集）	2.8

（得分越低越好）

📄 許可證

本項目採用MIT許可證。

📚 引用

如果您覺得我們的工作有幫助，請引用我們：

@article{voila2025,
  author    = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
  title     = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
  eprint={2505.02707},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  year      = {2025}
}