Voila-chat開源語音語言模型 - 免費部署提升人機交互體驗

首頁

Voila Chat

由maitrix-org開發

Voila是一個全新的大型語音-語言基礎模型系列，旨在將人機交互體驗提升至全新水平。

文本生成音頻

Transformers

支持多種語言開源協議:MIT #即時語音交互 #低延遲音頻處理 #多語言語音合成

下載量 2,423

發布時間 : 3/18/2025

模型概述

Voila採用創新的端到端模型設計和新型分層Transformer架構，實現即時、自主且豐富的語音交互，延遲低至195毫秒。結合先進的語音和語言建模技術，Voila提供可定製、角色驅動的交互體驗，並在從ASR、TTS到六種語言的語音翻譯等一系列音頻任務中表現出色。

模型特點

高保真、低延遲

實現即時流式音頻處理，延遲低至195毫秒

語音與語言建模整合

有效整合語音與語言建模能力

多語音支持

提供數百萬預構建和自定義語音，對話中快速切換語音

統一模型多任務

單一模型應對多種音頻任務

模型能力

語音識別

文本轉語音

語音翻譯

語音對話

音頻理解

使用案例

人機交互

即時語音對話

實現低延遲的自然語音對話

延遲低至195毫秒，超越人類平均響應時間

語音處理

多語言語音翻譯

支持六種語言的語音翻譯

🚀 Voila：語音語言基礎模型

Voila 是一系列全新的大型語音語言基礎模型，旨在將人機交互體驗提升到新的高度。它突破了傳統語音 AI 系統高延遲、丟失語音細微差別和機械響應的限制，採用了創新的端到端模型設計和新穎的分層 Transformer 架構。這種方法能夠實現即時、自主且豐富的語音交互，延遲低至 195 毫秒，超越了人類的平均響應時間。結合先進的語音和語言建模，Voila 提供可定製的、基於角色的交互，並在從自動語音識別（ASR）和文本轉語音（TTS）到跨六種語言的語音翻譯等一系列音頻任務中表現出色。

✨ 主要特性

高保真、低延遲的即時流式音頻處理
有效整合語音和語言建模能力
數百萬個預建和自定義語音，對話中可快速切換語音
適用於各種音頻任務的統一模型

📦 安裝指南

文檔未提供安裝步驟，暫不展示。

💻 使用示例

基礎用法

CLI 演示

for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
    # 文本聊天
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-text "Hello" \
	    --task-type chat_tito
    # 語音聊天
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-audio "examples/test1.mp3" \
	    --task-type chat_aiao
done

# 自主模式
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
	--instruction "" \
	--input-audio "examples/test_autonomous1.mp3" \
	--task-type chat_aiao_auto

Gradio 演示

python gradio_demo.py

更多信息，請參考代碼倉庫。

📚 詳細文檔

基礎模型

模型	描述	下載鏈接
Voila-base	Voila 基礎模型	https://huggingface.co/maitrix-org/Voila-base
Voila-Chat	端到端音頻聊天模型	https://huggingface.co/maitrix-org/Voila-chat
Voila-Autonomous (預覽版)	全雙工音頻聊天模型	https://huggingface.co/maitrix-org/Voila-autonomous-preview
Voila-Audio-alpha	支持原始音頻輸入的大語言模型	https://huggingface.co/maitrix-org/Voila-audio-alpha
Voila-Tokenizer	音頻分詞器	https://huggingface.co/maitrix-org/Voila-Tokenizer

數據集

我們發佈了以下兩個數據集：Voila 基準測試集和 Voila 語音庫。Voila 基準測試集是一個新穎的語音評估基準，而 Voila 語音庫提供了數百萬個預建和可定製的語音。

數據集	描述	下載鏈接
Voila 基準測試集	Voila 基準測試評估	https://huggingface.co/datasets/maitrix-org/Voila-Benchmark
Voila 語音庫	數百萬個預建語音	https://huggingface.co/datasets/maitrix-org/Voila-million-voice

基準測試

1. Voila 基準測試

我們引入了一個名為 Voila 基準測試的新穎語音評估基準。Voila 基準測試是從五個廣泛使用的語言模型評估數據集（MMLU、MATH、OpenAI HumanEval、NQ-Open 和 GSM8k）中採樣構建的。我們將我們的結果與 SpeechGPT 和 Moshi 進行了比較。

模型	Voila 基準測試得分
SpeechGPT	13.29
Moshi	11.45
Voila	30.56

（分數越高越好）

有關 Voila 基準測試在每個特定領域的詳細分數，請參考我們的論文（第 5.1 節“Voila 基準測試評估”）。

2. 自動語音識別（ASR）評估

由於 Voila 支持多項任務，包括自動語音識別（ASR）、文本轉語音（TTS）和語音問答，我們還評估了 ASR 和 TTS 的性能。對於 ASR，我們在 LibriSpeech test-clean 數據集上評估性能，使用詞錯誤率（WER）作為指標。Voila 的詞錯誤率（WER）為 4.8%，優於 Moshi 報告的 5.7%。在兩個模型都使用 LibriSpeech 訓練數據的情況下，Voila 實現了令人印象深刻的 2.7% 的 WER。

模型	LibriSpeech test-clean 數據集（WER）
Whisper large v2	2.7
Whisper large v3	2.2
FastConformer	3.6
VoxtLM	2.7
Moshi	5.7
Voila（未使用 LibriSpeech 訓練集）	4.8
Voila（使用 LibriSpeech 訓練集）	2.7

（分數越低越好）

3. 文本轉語音（TTS）評估

對於 TTS，我們遵循 Vall-E 中提出的評估指標，即使用 HuBERT-Large 對生成的音頻進行轉錄。Voila 再次領先，WER 為 3.2%（使用 LibriSpeech 訓練數據時為 2.8%）。

模型	LibriSpeech test-clean 數據集（WER）
YourTTS	7.7
Vall-E	5.9
Moshi	4.7
Voila（未使用 LibriSpeech 訓練集）	3.2
Voila（使用 LibriSpeech 訓練集）	2.8

（分數越低越好）

🔧 技術細節

文檔未提供技術實現細節，暫不展示。

📄 許可證

本項目採用 MIT 許可證。

📚 引用

如果您覺得我們的工作有幫助，請引用我們的論文：

@article{voila2025,
  author    = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
  title     = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
  eprint={2505.02707},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  year      = {2025}
}