Voila-autonomous-previewオープンソース音声-言語モデル - リアルタイム多言語音声対話をサポートし、ヒューマンマシン体験を向上させます

Home

Voila Autonomous Preview

Developed by maitrix-org

Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。

テキスト生成オーディオ

Transformers

Supports Multiple LanguagesOpen Source License:MIT #リアルタイム音声インタラクション #多言語音声合成 #エンドツーエンド音声処理

Downloads 332

Release Time : 3/18/2025

Model Overview

Voilaは革新的なエンドツーエンドモデル設計と階層型Transformerアーキテクチャを採用し、6言語の自動音声認識（ASR）、テキスト読み上げ（TTS）、音声翻訳をサポートし、高忠実度で低遅延の音声インタラクション体験を提供します。

Model Features

高忠実度・低遅延

リアルタイムストリーミング音声処理をサポートし、遅延は195ミリ秒まで低減、人間の平均応答時間を上回ります。

音声と言語モデリングの統合

音声と言語モデリング能力を効率的に統合し、豊かなインタラクション体験を提供します。

多音声サポート

数百万の事前構築済みおよびカスタム音声を提供し、会話中に素早く音声を切り替えられます。

マルチタスクサポート

単一モデルでASR、TTS、音声翻訳など複数の音声タスクをサポートします。

Model Capabilities

自動音声認識（ASR）

テキスト読み上げ（TTS）

音声翻訳

リアルタイム音声インタラクション

多言語処理

Use Cases

音声インタラクション

リアルタイム音声チャット

低遅延のリアルタイム音声チャットをサポートし、カスタマーサポートや仮想アシスタントなどのシナリオに適しています。

遅延は195ミリ秒まで低減し、自然で滑らかなインタラクション体験を提供します。

多言語処理

多言語音声翻訳

6言語の音声翻訳をサポートし、異なる言語間のコミュニケーションシナリオに適しています。

LibriSpeechテストセットでの単語誤り率（WER）は4.8%です。

🚀 Voila: 音声言語基盤モデル

Voilaは、人間とAIの対話体験を新たなレベルへ引き上げるための、新しい音声言語基盤モデルのファミリーです。従来の音声AIシステムの制約（高いレイテンシ、声のニュアンスの喪失、機械的な応答）を打破し、革新的なエンドツーエンドのモデル設計と新しい階層型Transformerアーキテクチャを採用しています。このアプローチにより、195msという低いレイテンシで、リアルタイム、自律的、かつ豊かな音声対話が可能になり、平均的な人間の反応時間を上回っています。高度な音声と言語モデリングを組み合わせることで、カスタマイズ可能な、ペルソナ駆動型の対話を提供し、音声認識（ASR）、テキスト読み上げ（TTS）から音声翻訳まで、幅広い音声タスクで優れた性能を発揮します。

🚀 クイックスタート

Voilaを使って、音声と言語の新しい可能性を探りましょう。以下に、CLIデモとGradioデモの使い方を紹介します。

💻 使用例

基本的な使用法

for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
    # テキストチャット
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-text "Hello" \
	    --task-type chat_tito
    # 音声チャット
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-audio "examples/test1.mp3" \
	    --task-type chat_aiao
done

# 自律モード
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
	--instruction "" \
	--input-audio "examples/test_autonomous1.mp3" \
	--task-type chat_aiao_auto

高度な使用法

python gradio_demo.py

詳細な情報については、コードリポジトリを参照してください。

✨ 主な機能

高忠実度、低レイテンシ、リアルタイムストリーミング音声処理
音声と言語モデリング機能の効果的な統合
数百万の事前構築済みおよびカスタマイズ可能な音声、会話中の高速音声切り替え
様々な音声タスクに対応した統一モデル

📦 インストール

インストールに関する具体的な手順は、コードリポジトリを参照してください。

📚 ドキュメント

モデル情報

モデル	説明	ダウンロードリンク
Voila-base	Voilaのベースモデル	https://huggingface.co/maitrix-org/Voila-base
Voila-Chat	エンドツーエンドの音声チャットモデル	https://huggingface.co/maitrix-org/Voila-chat
Voila-Autonomous (preview)	全二重音声チャットモデル	https://huggingface.co/maitrix-org/Voila-autonomous-preview
Voila-Audio-alpha	生の音声入力でLLMを強化	https://huggingface.co/maitrix-org/Voila-audio-alpha
Voila-Tokenizer	音声トークナイザー	https://huggingface.co/maitrix-org/Voila-Tokenizer

データセット情報

データセット	説明	ダウンロードリンク
Voila Benchmark	Voilaの評価ベンチマーク	https://huggingface.co/datasets/maitrix-org/Voila-Benchmark
Voila Voice Library	数百万の事前構築済み音声	https://huggingface.co/datasets/maitrix-org/Voila-million-voice

ベンチマーク評価

1. Voila Benchmark

新しい音声評価ベンチマークであるVoila Benchmarkを導入しました。このベンチマークは、MMLU、MATH、OpenAI HumanEval、NQ-Open、GSM8kという5つの広く使用されている言語モデル評価データセットからサンプリングして構築されています。結果をSpeechGPTとMoshiと比較しています。

モデル	Voila Benchmark
SpeechGPT	13.29
Moshi	11.45
Voila	30.56

(数値が高いほど良い)

各特定ドメインにおけるVoila Benchmarkの詳細なスコアについては、論文（セクション5.1 "Evaluation of Voila Benchmark"）を参照してください。

2. 音声認識（ASR）の評価

Voilaは、音声認識（ASR）、テキスト読み上げ（TTS）、音声質問応答などの複数のタスクをサポートしています。そのため、ASRとTTSの性能も評価しています。 ASRについては、LibriSpeech test-cleanデータセットで性能を評価し、単語誤り率（WER）を指標として使用しています。Voilaは4.8%の単語誤り率（WER）を達成し、Moshiが報告した5.7%を上回っています。両方のモデルがLibriSpeechのトレーニングデータを使用するシナリオでは、Voilaは2.7%の印象的なWERを達成します。

モデル	LibriSpeech test-clean (WER)
Whisper large v2	2.7
Whisper large v3	2.2
FastConformer	3.6
VoxtLM	2.7
Moshi	5.7
Voila (w/o LibriSpeech train split)	4.8
Voila (with LibriSpeech train split)	2.7

(数値が低いほど良い)

3. テキスト読み上げ（TTS）の評価

TTSについては、Vall-Eで提案された評価指標に従い、生成された音声をHuBERT-Largeを使用して文字起こしすることで評価しています。 Voilaは再び3.2%のWER（LibriSpeechのトレーニングデータを使用する場合は2.8%）で首位を占めています。

モデル	LibriSpeech test-clean (WER)
YourTTS	7.7
Vall-E	5.9
Moshi	4.7
Voila (w/o LibriSpeech train split)	3.2
Voila (with LibriSpeech train split)	2.8

(数値が低いほど良い)

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

🔧 技術詳細

Voilaは、革新的なエンドツーエンドのモデル設計と新しい階層型Transformerアーキテクチャを採用しています。これにより、低レイテンシでリアルタイム、自律的、かつ豊かな音声対話が可能になります。

📚 引用

もしこの研究が役に立った場合は、以下のように引用してください。

@article{voila2025,
  author    = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
  title     = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
  eprint={2505.02707},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  year      = {2025}
}