🚀 Voila: Voice-Language Foundation Models
Voilaは、人間とAIの対話体験を次のレベルに引き上げることを目指した、新しい大規模音声言語基盤モデルのファミリーです。従来の音声AIシステムの制約(高いレイテンシー、声のニュアンスの喪失、機械的な応答)から脱却し、革新的なエンドツーエンドのモデル設計と新しい階層型Transformerアーキテクチャを採用しています。このアプローにより、最低195ミリ秒のレイテンシーで、リアルタイムで自律的かつ豊かな音声対話が可能となり、平均的な人間の反応時間を上回っています。高度な音声と言語モデリングを組み合わせることで、Voilaはカスタマイズ可能なペルソナ駆動型の対話を提供し、ASRやTTSから6か国語にまたがる音声翻訳まで、さまざまな音声タスクで優れた性能を発揮します。

Voila: Voice-Language Foundation Models
🔗 プロジェクトページ    |    🐙 GitHub    |   🤗 Hugging Face   |    📄 論文    |    💻 オンラインデモ   |    🏢Maitrix.org
🚀 クイックスタート
Voilaは、人間とAIの対話体験を新たなレベルに引き上げる音声言語基盤モデルです。以下に、Voilaの使用方法を紹介します。
✨ 主な機能
- 高忠実度、低レイテンシーのリアルタイムストリーミング音声処理
- 音声と言語モデリング機能の効果的な統合
- 数百万の事前構築済みおよびカスタマイズ可能な音声、会話中の高速音声切り替え
- さまざまな音声タスクに対応した統一モデル
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
CLIデモ
for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
# テキストチャット
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-text "Hello" \
--task-type chat_tito
# 音声チャット
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
done
# 自律モード
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
Gradioデモ
python gradio_demo.py
詳細な情報については、コードリポジトリを参照してください。
📚 ドキュメント
データセット
以下の2つのデータセットを公開しています:Voila BenchmarkとVoila Voice Library。Voila-Benchmarkは新しい音声評価ベンチマークであり、Voila Voice Libraryは数百万の事前構築済みおよびカスタマイズ可能な音声を提供します。
データセット |
説明 |
ダウンロードリンク |
Voila Benchmark |
Voila Benchmarkの評価 |
https://huggingface.co/datasets/maitrix-org/Voila-Benchmark |
Voila Voice Library |
数百万の事前構築済み音声 |
https://huggingface.co/datasets/maitrix-org/Voila-million-voice |
ベンチマーク
1. Voila Benchmark
新しい音声評価ベンチマークであるVoila Benchmarkを導入しました。Voila Benchmarkは、MMLU、MATH、OpenAI HumanEval、NQ-Open、GSM8kの5つの広く使用されている言語モデル評価データセットからサンプリングして構築されています。結果をSpeechGPTとMoshiと比較しています。
モデル |
Voila Benchmark |
SpeechGPT |
13.29 |
Moshi |
11.45 |
Voila |
30.56 |
(数値が高いほど良い)
Voila Benchmarkの各特定ドメインにおける詳細なスコアについては、論文(セクション5.1 "Evaluation of Voila Benchmark")を参照してください。
2. ASRの評価
Voilaは、自動音声認識(ASR)、テキスト読み上げ(TTS)、音声質問応答などの複数のタスクをサポートしているため、ASRとTTSの性能も評価しています。
ASRについては、LibriSpeech test-cleanデータセットでの性能を評価し、単語誤り率(WER)を指標として使用しています。Voilaは4.8%の単語誤り率(WER)を達成し、Moshiが報告した5.7%を上回っています。両方のモデルがLibriSpeechのトレーニングデータを使用するシナリオでは、Voilaは2.7%の印象的なWERを達成しています。
モデル |
LibriSpeech test-clean (WER) |
Whisper large v2 |
2.7 |
Whisper large v3 |
2.2 |
FastConformer |
3.6 |
VoxtLM |
2.7 |
Moshi |
5.7 |
Voila (w/o LibriSpeech train split) |
4.8 |
Voila (with LibriSpeech train split) |
2.7 |
(数値が低いほど良い)
3. TTSの評価
TTSについては、Vall-Eで提案された評価指標に従い、HuBERT-Largeを使用して生成された音声を文字起こししています。
Voilaは再び、3.2%のWER(LibriSpeechのトレーニングデータを使用する場合は2.8%)で首位を占めています。
モデル |
LibriSpeech test-clean (WER) |
YourTTS |
7.7 |
Vall-E |
5.9 |
Moshi |
4.7 |
Voila (w/o LibriSpeech train split) |
3.2 |
Voila (with LibriSpeech train split) |
2.8 |
(数値が低いほど良い)
🔧 技術詳細
このREADMEには具体的な技術詳細が記載されていないため、このセクションをスキップします。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
📚 引用
もし私たちの研究が役に立った場合は、以下のように引用してください。
@article{voila2025,
author = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
title = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
eprint={2505.02707},
archivePrefix={arXiv},
primaryClass={cs.CL},
year = {2025}
}