Voila-Tokenizer開源語音-語言模型 - 支持多音頻任務，提升人機交互體驗

首頁

Voila Tokenizer

由maitrix-org開發

Voila是一個大型語音-語言基礎模型系列，旨在提升人機交互體驗，支持多種音頻任務和語言。

文本生成音頻

Transformers

支持多種語言開源協議:MIT #即時語音交互 #多語言語音合成 #端到端音頻處理

下載量 4,912

發布時間 : 2/26/2025

模型概述

Voila採用創新的端到端模型設計和分層Transformer架構，實現低延遲、高保真的語音交互，支持自動語音識別(ASR)、文本轉語音(TTS)和語音翻譯等多種任務。

模型特點

高保真低延遲

實現即時流式音頻處理，延遲低至195毫秒，超越人類平均反應時間。

語音與語言建模整合

高效整合語音和語言建模能力，提供豐富的交互體驗。

多語言支持

支持六種語言的自動語音識別、文本轉語音和語音翻譯。

可定製語音

提供數百萬預置和自定義語音，對話中可快速切換聲音。

模型能力

自動語音識別(ASR)

文本轉語音(TTS)

語音翻譯

即時語音交互

多語言支持

使用案例

語音交互

即時語音聊天

支持低延遲的即時語音對話，適用於客服、虛擬助手等場景。

延遲低至195毫秒，提供自然流暢的交互體驗。

語音合成

多語言TTS

支持六種語言的文本轉語音，適用於有聲書、導航提示等場景。

詞錯誤率(WER)低至2.8%，語音質量高。

語音識別

多語言ASR

支持六種語言的自動語音識別，適用於會議記錄、語音轉寫等場景。

詞錯誤率(WER)低至2.7%，識別準確率高。

🚀 Voila：語音 - 語言基礎模型

Voila 是一系列全新的大型語音 - 語言基礎模型，旨在將人機交互體驗提升到新的高度。它突破了傳統語音 AI 系統的侷限，如高延遲、語音細節丟失和機械響應等問題。Voila 採用了創新的端到端模型設計和新穎的分層 Transformer 架構，實現了即時、自主且豐富的語音交互，延遲低至 195 毫秒，超越了人類的平均響應時間。結合先進的語音和語言建模技術，Voila 提供了可定製、基於角色的交互方式，並且在從自動語音識別（ASR）、文本轉語音（TTS）到跨六種語言的語音翻譯等一系列音頻任務中表現出色。

✨ 主要特性

高保真、低延遲的即時流式音頻處理。
有效整合語音和語言建模能力。
擁有數百萬個預建和自定義語音，對話中可快速切換語音。
統一模型適用於各種音頻任務。

📺 視頻演示

📢 最新消息

2025 年 4 月 28 日：我們發佈了 Voila 的推理代碼和模型權重。

📦 基礎模型

模型	描述	下載鏈接
Voila-base	Voila 基礎模型	https://huggingface.co/maitrix-org/Voila-base
Voila-Chat	端到端音頻聊天模型	https://huggingface.co/maitrix-org/Voila-chat
Voila-Autonomous (預覽版)	全雙工音頻聊天模型	https://huggingface.co/maitrix-org/Voila-autonomous-preview
Voila-Audio-alpha	支持原始音頻輸入的大語言模型	https://huggingface.co/maitrix-org/Voila-audio-alpha
Voila-Tokenizer	音頻分詞器	https://huggingface.co/maitrix-org/Voila-Tokenizer

💻 使用示例

基礎用法

CLI 演示

for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
    # 文本聊天
    python infer.py \
        --model-name ${model_name} \
        --instruction "" \
        --input-text "Hello" \
        --task-type chat_tito
    # 語音聊天
    python infer.py \
        --model-name ${model_name} \
        --instruction "" \
        --input-audio "examples/test1.mp3" \
        --task-type chat_aiao
done

# 自主模式
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
    --instruction "" \
    --input-audio "examples/test_autonomous1.mp3" \
    --task-type chat_aiao_auto

Gradio 演示

python gradio_demo.py

更多信息，請參考代碼倉庫。

📊 數據集

我們發佈了以下兩個數據集：Voila 基準測試集和 Voila 語音庫。Voila 基準測試集是一個新穎的語音評估基準，而 Voila 語音庫提供了數百萬個預建和可定製的語音。

數據集	描述	下載鏈接
Voila 基準測試集	Voila 基準測試評估	https://huggingface.co/datasets/maitrix-org/Voila-Benchmark
Voila 語音庫	數百萬個預建語音	https://huggingface.co/datasets/maitrix-org/Voila-million-voice

🧪 基準測試

1. Voila 基準測試

我們引入了一個名為 Voila 基準測試的新穎語音評估基準。該基準通過從五個廣泛使用的語言模型評估數據集中採樣構建而成，包括 MMLU、MATH、OpenAI HumanEval、NQ - Open 和 GSM8k。我們將我們的結果與 SpeechGPT 和 Moshi 進行了比較。

模型	Voila 基準測試得分
SpeechGPT	13.29
Moshi	11.45
Voila	30.56

（分數越高越好）

有關 Voila 基準測試在每個特定領域的詳細分數，請參考我們的論文（第 5.1 節“Voila 基準測試評估”）。

2. 自動語音識別（ASR）評估

由於 Voila 支持多項任務，包括自動語音識別（ASR）、文本轉語音（TTS）和語音問答，我們還評估了 ASR 和 TTS 的性能。對於 ASR，我們在 LibriSpeech test - clean 數據集上進行評估，使用詞錯誤率（WER）作為指標。Voila 的詞錯誤率（WER）達到了 4.8%，優於 Moshi 報告的 5.7%。在兩個模型都使用 LibriSpeech 訓練數據的情況下，Voila 實現了令人印象深刻的 2.7% 的 WER。

模型	LibriSpeech test - clean（WER）
Whisper large v2	2.7
Whisper large v3	2.2
FastConformer	3.6
VoxtLM	2.7
Moshi	5.7
Voila（未使用 LibriSpeech 訓練集）	4.8
Voila（使用 LibriSpeech 訓練集）	2.7

（分數越低越好）

3. 文本轉語音（TTS）評估

對於 TTS，我們遵循 Vall - E 中提出的評估指標，即使用 HuBERT - Large 對生成的音頻進行轉錄。Voila 再次領先，WER 為 3.2%（使用 LibriSpeech 訓練數據時為 2.8%）。

模型	LibriSpeech test - clean（WER）
YourTTS	7.7
Vall - E	5.9
Moshi	4.7
Voila（未使用 LibriSpeech 訓練集）	3.2
Voila（使用 LibriSpeech 訓練集）	2.8

（分數越低越好）

📄 引用

如果您覺得我們的工作有幫助，請引用我們：

@article{voila2025,
  author    = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
  title     = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
  eprint={2505.02707},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  year      = {2025}
}