Voila-audio-alphaオープンソース音声モデル - 多言語対応、リアルタイム低遅延音声インタラクションを実現

ホーム

Voila Audio Alpha

maitrix-orgによって開発

Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。

テキスト生成オーディオ

Transformers

複数言語対応オープンソースライセンス:MIT #リアルタイム音声インタラクション #多言語音声合成 #低遅延ストリーミング処理

ダウンロード数 175

リリース時間 : 3/18/2025

モデル概要

Voilaは革新的なエンドツーエンドモデル設計と階層型Transformerアーキテクチャにより、高忠実度で低遅延の音声インタラクションを実現し、ASR、TTS、音声翻訳など多様な音声タスクをサポートします。

モデル特徴

高忠実度・低遅延

リアルタイムストリーミング音声処理をサポートし、遅延は195ミリ秒まで低減。

多言語サポート

6言語の自動音声認識（ASR）、テキスト読み上げ（TTS）、音声翻訳をサポート。

音声と言語モデリングの統合

音声と言語モデリング能力を効率的に統合し、豊かなインタラクション体験を提供。

数百万の事前構築音声

数百万の事前構築およびカスタム音声をサポートし、対話中に迅速に切り替え可能。

モデル能力

リアルタイム音声インタラクション

自動音声認識（ASR）

テキスト読み上げ（TTS）

音声翻訳

多言語処理

使用事例

音声インタラクション

リアルタイム音声チャット

低遅延のリアルタイム音声チャットをサポートし、カスタマーサポートや仮想アシスタントなどのシナリオに適しています。

遅延は195ミリ秒まで低減し、人間の平均反応時間を上回ります。

音声合成

高忠実度音声合成

自然で高忠実度の音声出力を生成し、オーディオブックやナビゲーションなどのシナリオに適しています。

単語誤り率（WER）は3.2%（LibriSpeechトレーニングデータ未使用時）。

🚀 Voila: Voice-Language Foundation Models

Voilaは、人間とAIの対話体験を次のレベルに引き上げることを目指した、新しい音声言語基盤モデルのファミリーです。従来の音声AIシステムの制約（高遅延、音声のニュアンスの喪失、機械的な応答）を打破し、革新的なエンドツーエンドのモデル設計と新しい階層型Transformerアーキテクチャを採用しています。このアプローチにより、195msという低遅延で、人間の平均的な反応時間を上回るリアルタイム、自律的、かつ豊かな音声対話が可能になります。高度な音声と言語モデリングを組み合わせることで、Voilaはカスタマイズ可能なペルソナ駆動型の対話を提供し、ASRやTTS、6か国語にまたがる音声翻訳など、幅広い音声タスクで優れた性能を発揮します。オンラインデモを通じて、人間とAIの間の革新的で自然な対話体験を探求することができます。

🚀 クイックスタート

Voilaの詳細な使い方やコード例については、以下のセクションを参照してください。

✨ 主な機能

高忠実度、低遅延、リアルタイムストリーミング音声処理
音声と言語モデリング機能の効果的な統合
数百万の事前構築済みおよびカスタマイズ可能な音声、会話中の高速音声切り替え
様々な音声タスクに対応した統一モデル

📦 インストール

本READMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

CLIデモ

for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
    # テキストチャット
    python infer.py \
        --model-name ${model_name} \
        --instruction "" \
        --input-text "Hello" \
        --task-type chat_tito
    # 音声チャット
    python infer.py \
        --model-name ${model_name} \
        --instruction "" \
        --input-audio "examples/test1.mp3" \
        --task-type chat_aiao
done

# 自律モード
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
    --instruction "" \
    --input-audio "examples/test_autonomous1.mp3" \
    --task-type chat_aiao_auto

Gradioデモ

python gradio_demo.py

詳細な情報については、コードリポジトリを参照してください。

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	音声から音声への変換モデル
サポート言語	英語、中国語、フランス語、ドイツ語、日本語、韓国語
パイプラインタグ	audio-to-audio

データセット

データセット	説明	ダウンロードリンク
Voila Benchmark	Voilaベンチマークの評価用データセット	https://huggingface.co/datasets/maitrix-org/Voila-Benchmark
Voila Voice Library	数百万の事前構築済み音声を提供するデータセット	https://huggingface.co/datasets/maitrix-org/Voila-million-voice

ベンチマーク

1. Voilaベンチマーク

Voila Benchmarkと呼ばれる新しい音声評価ベンチマークを導入しました。Voila Benchmarkは、MMLU、MATH、OpenAI HumanEval、NQ-Open、GSM8kという5つの広く使用されている言語モデル評価データセットからサンプリングして構築されています。SpeechGPTやMoshiとの結果を比較しています。

モデル	Voilaベンチマーク
SpeechGPT	13.29
Moshi	11.45
Voila	30.56

（数値が高いほど良い）

各特定ドメインにおけるVoila Benchmarkの詳細なスコアについては、論文（セクション5.1「Evaluation of Voila Benchmark」）を参照してください。

2. ASRの評価

Voilaは、自動音声認識（ASR）、テキスト音声合成（TTS）、音声質問応答など、複数のタスクをサポートしています。そのため、ASRとTTSの性能も評価しています。 ASRについては、LibriSpeech test-cleanデータセットでの性能を評価し、単語誤り率（WER）を指標として使用しています。Voilaは4.8％の単語誤り率（WER）を達成し、Moshiが報告した5.7％を上回っています。両方のモデルがLibriSpeechのトレーニングデータを使用するシナリオでは、Voilaは2.7％という印象的なWERを達成しています。

モデル	LibriSpeech test-clean (WER)
Whisper large v2	2.7
Whisper large v3	2.2
FastConformer	3.6
VoxtLM	2.7
Moshi	5.7
Voila (w/o LibriSpeech train split)	4.8
Voila (with LibriSpeech train split)	2.7

（数値が低いほど良い）

3. TTSの評価

TTSについては、Vall-Eで提案された評価指標に従い、生成された音声をHuBERT-Largeを使用して文字起こしすることで評価しています。 Voilaは再び、3.2％のWER（LibriSpeechのトレーニングデータを使用した場合は2.8％）でトップを占めています。

モデル	LibriSpeech test-clean (WER)
YourTTS	7.7
Vall-E	5.9
Moshi	4.7
Voila (w/o LibriSpeech train split)	3.2
Voila (with LibriSpeech train split)	2.8

（数値が低いほど良い）

🔧 技術詳細

本READMEには具体的な技術詳細が記載されていないため、このセクションは省略されます。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📄 引用

もし当社の研究が役立った場合は、以下のように引用してください。

@article{voila2025,
  author    = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
  title     = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
  eprint={2505.02707},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  year      = {2025}
}