🚀 Voila: Voice-Language Foundation Models
Voilaは、人間とAIの対話体験を次のレベルに引き上げることを目指した、新しい音声言語基盤モデルのファミリーです。従来の音声AIシステムの制約(高遅延、音声のニュアンスの喪失、機械的な応答)を打破し、革新的なエンドツーエンドのモデル設計と新しい階層型Transformerアーキテクチャを採用しています。このアプローチにより、195msという低遅延で、人間の平均的な反応時間を上回るリアルタイム、自律的、かつ豊かな音声対話が可能になります。高度な音声と言語モデリングを組み合わせることで、Voilaはカスタマイズ可能なペルソナ駆動型の対話を提供し、ASRやTTS、6か国語にまたがる音声翻訳など、幅広い音声タスクで優れた性能を発揮します。オンラインデモを通じて、人間とAIの間の革新的で自然な対話体験を探求することができます。
🚀 クイックスタート
Voilaの詳細な使い方やコード例については、以下のセクションを参照してください。
✨ 主な機能
- 高忠実度、低遅延、リアルタイムストリーミング音声処理
- 音声と言語モデリング機能の効果的な統合
- 数百万の事前構築済みおよびカスタマイズ可能な音声、会話中の高速音声切り替え
- 様々な音声タスクに対応した統一モデル
📦 インストール
本READMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
CLIデモ
for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
# テキストチャット
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-text "Hello" \
--task-type chat_tito
# 音声チャット
python infer.py \
--model-name ${model_name} \
--instruction "" \
--input-audio "examples/test1.mp3" \
--task-type chat_aiao
done
# 自律モード
python infer.py \
--model-name "maitrix-org/Voila-autonomous-preview" \
--instruction "" \
--input-audio "examples/test_autonomous1.mp3" \
--task-type chat_aiao_auto
Gradioデモ
python gradio_demo.py
詳細な情報については、コードリポジトリを参照してください。
📚 ドキュメント
モデル情報
プロパティ |
詳細 |
モデルタイプ |
音声から音声への変換モデル |
サポート言語 |
英語、中国語、フランス語、ドイツ語、日本語、韓国語 |
パイプラインタグ |
audio-to-audio |
データセット
データセット |
説明 |
ダウンロードリンク |
Voila Benchmark |
Voilaベンチマークの評価用データセット |
https://huggingface.co/datasets/maitrix-org/Voila-Benchmark |
Voila Voice Library |
数百万の事前構築済み音声を提供するデータセット |
https://huggingface.co/datasets/maitrix-org/Voila-million-voice |
ベンチマーク
1. Voilaベンチマーク
Voila Benchmarkと呼ばれる新しい音声評価ベンチマークを導入しました。Voila Benchmarkは、MMLU、MATH、OpenAI HumanEval、NQ-Open、GSM8kという5つの広く使用されている言語モデル評価データセットからサンプリングして構築されています。SpeechGPTやMoshiとの結果を比較しています。
モデル |
Voilaベンチマーク |
SpeechGPT |
13.29 |
Moshi |
11.45 |
Voila |
30.56 |
(数値が高いほど良い)
各特定ドメインにおけるVoila Benchmarkの詳細なスコアについては、論文(セクション5.1「Evaluation of Voila Benchmark」)を参照してください。
2. ASRの評価
Voilaは、自動音声認識(ASR)、テキスト音声合成(TTS)、音声質問応答など、複数のタスクをサポートしています。そのため、ASRとTTSの性能も評価しています。
ASRについては、LibriSpeech test-cleanデータセットでの性能を評価し、単語誤り率(WER)を指標として使用しています。Voilaは4.8%の単語誤り率(WER)を達成し、Moshiが報告した5.7%を上回っています。両方のモデルがLibriSpeechのトレーニングデータを使用するシナリオでは、Voilaは2.7%という印象的なWERを達成しています。
モデル |
LibriSpeech test-clean (WER) |
Whisper large v2 |
2.7 |
Whisper large v3 |
2.2 |
FastConformer |
3.6 |
VoxtLM |
2.7 |
Moshi |
5.7 |
Voila (w/o LibriSpeech train split) |
4.8 |
Voila (with LibriSpeech train split) |
2.7 |
(数値が低いほど良い)
3. TTSの評価
TTSについては、Vall-Eで提案された評価指標に従い、生成された音声をHuBERT-Largeを使用して文字起こしすることで評価しています。
Voilaは再び、3.2%のWER(LibriSpeechのトレーニングデータを使用した場合は2.8%)でトップを占めています。
モデル |
LibriSpeech test-clean (WER) |
YourTTS |
7.7 |
Vall-E |
5.9 |
Moshi |
4.7 |
Voila (w/o LibriSpeech train split) |
3.2 |
Voila (with LibriSpeech train split) |
2.8 |
(数値が低いほど良い)
🔧 技術詳細
本READMEには具体的な技術詳細が記載されていないため、このセクションは省略されます。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
📄 引用
もし当社の研究が役立った場合は、以下のように引用してください。
@article{voila2025,
author = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
title = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
eprint={2505.02707},
archivePrefix={arXiv},
primaryClass={cs.CL},
year = {2025}
}