🚀 Voila: 音声言語基盤モデル
Voilaは、人間とAIの対話体験を新たなレベルへ引き上げるための、新しい音声言語基盤モデルのファミリーです。従来の音声AIシステムの制約(高いレイテンシ、声のニュアンスの喪失、機械的な応答)を打破し、革新的なエンドツーエンドのモデル設計と新しい階層型Transformerアーキテクチャを採用しています。このアプローチにより、195msという低いレイテンシで、リアルタイム、自律的、かつ豊かな音声対話が可能になり、平均的な人間の反応時間を上回っています。高度な音声と言語モデリングを組み合わせることで、カスタマイズ可能な、ペルソナ駆動型の対話を提供し、音声認識(ASR)、テキスト読み上げ(TTS)から音声翻訳まで、幅広い音声タスクで優れた性能を発揮します。

Voila: Voice-Language Foundation Models
🔗 プロジェクトページ    |    🐙 GitHub    |   🤗 Hugging Face   |    📄 論文    |    💻 オンラインデモ   |    🌐Maitrix.org
🚀 クイックスタート
Voilaを使って、音声と言語の新しい可能性を探りましょう。以下に、CLIデモとGradioデモの使い方を紹介します。
💻 使用例
基本的な使用法
for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
# テキストチャット
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-text "Hello" \
--task-type chat_tito
# 音声チャット
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
done
# 自律モード
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
高度な使用法
python gradio_demo.py
詳細な情報については、コードリポジトリを参照してください。
✨ 主な機能
- 高忠実度、低レイテンシ、リアルタイムストリーミング音声処理
- 音声と言語モデリング機能の効果的な統合
- 数百万の事前構築済みおよびカスタマイズ可能な音声、会話中の高速音声切り替え
- 様々な音声タスクに対応した統一モデル
📦 インストール
インストールに関する具体的な手順は、コードリポジトリを参照してください。
📚 ドキュメント
モデル情報
モデル |
説明 |
ダウンロードリンク |
Voila-base |
Voilaのベースモデル |
https://huggingface.co/maitrix-org/Voila-base |
Voila-Chat |
エンドツーエンドの音声チャットモデル |
https://huggingface.co/maitrix-org/Voila-chat |
Voila-Autonomous (preview) |
全二重音声チャットモデル |
https://huggingface.co/maitrix-org/Voila-autonomous-preview |
Voila-Audio-alpha |
生の音声入力でLLMを強化 |
https://huggingface.co/maitrix-org/Voila-audio-alpha |
Voila-Tokenizer |
音声トークナイザー |
https://huggingface.co/maitrix-org/Voila-Tokenizer |
データセット情報
データセット |
説明 |
ダウンロードリンク |
Voila Benchmark |
Voilaの評価ベンチマーク |
https://huggingface.co/datasets/maitrix-org/Voila-Benchmark |
Voila Voice Library |
数百万の事前構築済み音声 |
https://huggingface.co/datasets/maitrix-org/Voila-million-voice |
ベンチマーク評価
1. Voila Benchmark
新しい音声評価ベンチマークであるVoila Benchmarkを導入しました。このベンチマークは、MMLU、MATH、OpenAI HumanEval、NQ-Open、GSM8kという5つの広く使用されている言語モデル評価データセットからサンプリングして構築されています。結果をSpeechGPTとMoshiと比較しています。
モデル |
Voila Benchmark |
SpeechGPT |
13.29 |
Moshi |
11.45 |
Voila |
30.56 |
(数値が高いほど良い)
各特定ドメインにおけるVoila Benchmarkの詳細なスコアについては、論文(セクション5.1 "Evaluation of Voila Benchmark")を参照してください。
2. 音声認識(ASR)の評価
Voilaは、音声認識(ASR)、テキスト読み上げ(TTS)、音声質問応答などの複数のタスクをサポートしています。そのため、ASRとTTSの性能も評価しています。
ASRについては、LibriSpeech test-cleanデータセットで性能を評価し、単語誤り率(WER)を指標として使用しています。Voilaは4.8%の単語誤り率(WER)を達成し、Moshiが報告した5.7%を上回っています。両方のモデルがLibriSpeechのトレーニングデータを使用するシナリオでは、Voilaは2.7%の印象的なWERを達成します。
モデル |
LibriSpeech test-clean (WER) |
Whisper large v2 |
2.7 |
Whisper large v3 |
2.2 |
FastConformer |
3.6 |
VoxtLM |
2.7 |
Moshi |
5.7 |
Voila (w/o LibriSpeech train split) |
4.8 |
Voila (with LibriSpeech train split) |
2.7 |
(数値が低いほど良い)
3. テキスト読み上げ(TTS)の評価
TTSについては、Vall-Eで提案された評価指標に従い、生成された音声をHuBERT-Largeを使用して文字起こしすることで評価しています。
Voilaは再び3.2%のWER(LibriSpeechのトレーニングデータを使用する場合は2.8%)で首位を占めています。
モデル |
LibriSpeech test-clean (WER) |
YourTTS |
7.7 |
Vall-E |
5.9 |
Moshi |
4.7 |
Voila (w/o LibriSpeech train split) |
3.2 |
Voila (with LibriSpeech train split) |
2.8 |
(数値が低いほど良い)
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
🔧 技術詳細
Voilaは、革新的なエンドツーエンドのモデル設計と新しい階層型Transformerアーキテクチャを採用しています。これにより、低レイテンシでリアルタイム、自律的、かつ豊かな音声対話が可能になります。
📚 引用
もしこの研究が役に立った場合は、以下のように引用してください。
@article{voila2025,
author = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
title = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
eprint={2505.02707},
archivePrefix={arXiv},
primaryClass={cs.CL},
year = {2025}
}