Voila-chatオープンソース音声言語モデル - 無料でデプロイしてヒューマン・コンピュータインタラクション体験を向上させる

ホーム

Voila Chat

maitrix-orgによって開発

Voilaは、人間と機械のインタラクション体験を新たなレベルに引き上げることを目的とした、まったく新しい大規模音声-言語基礎モデルシリーズです。

テキスト生成オーディオ

Transformers

複数言語対応オープンソースライセンス:MIT #リアルタイム音声インタラクション #低遅延オーディオ処理 #多言語音声合成

ダウンロード数 2,423

リリース時間 : 3/18/2025

モデル概要

Voilaは革新的なエンドツーエンドモデル設計と新しい階層型Transformerアーキテクチャを採用し、195ミリ秒という低遅延でリアルタイムかつ自律的で豊かな音声インタラクションを実現します。先進的な音声と言語モデリング技術を組み合わせ、Voilaはカスタマイズ可能でキャラクター駆動型のインタラクション体験を提供し、ASR、TTSから6言語の音声翻訳に至る一連のオーディオタスクで優れた性能を発揮します。

モデル特徴

高忠実度・低遅延

リアルタイムストリーミングオーディオ処理を実現、遅延は195ミリ秒まで低減

音声と言語モデリングの統合

音声と言語モデリング能力を効果的に統合

多音声サポート

数百万の事前構築およびカスタム音声を提供、会話中に素早く音声を切り替え可能

統一モデルによるマルチタスク

単一モデルで複数のオーディオタスクに対応

モデル能力

音声認識

テキスト読み上げ

音声翻訳

音声対話

オーディオ理解

使用事例

人間と機械のインタラクション

リアルタイム音声対話

低遅延の自然な音声対話を実現

遅延は195ミリ秒まで低減、人間の平均応答時間を上回る

音声処理

多言語音声翻訳

6言語の音声翻訳をサポート

🚀 Voila: Voice-Language Foundation Models

Voilaは、人間とAIの対話体験を新たなレベルへ引き上げる、新しい音声言語基盤モデルのファミリーです。従来の音声AIシステムが抱える高遅延、音声のニュアンスの喪失、機械的な応答といった制約を打破し、革新的なエンドツーエンドのモデル設計と新しい階層型Transformerアーキテクチャを採用しています。これにより、低遅延（最小195ms）でリアルタイムかつ豊かな音声対話が可能となり、平均的な人間の反応時間を上回る性能を発揮します。高度な音声と言語モデリング技術を組み合わせ、カスタマイズ可能なペルソナ駆動型の対話を実現し、音声認識、音声合成、音声翻訳など、幅広い音声タスクで優れた性能を発揮します。

✨ 主な機能

高忠実度、低遅延のリアルタイムストリーミング音声処理
音声と言語モデリング機能の効果的な統合
数百万の事前構築済みおよびカスタマイズ可能な音声、会話中の高速音声切り替え
様々な音声タスクに対応した統一モデル

📦 インストール

詳細なインストール手順については、コードリポジトリを参照してください。

💻 使用例

基本的な使用法

CLIデモ

for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
    # テキストチャット
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-text "Hello" \
	    --task-type chat_tito
    # 音声チャット
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-audio "examples/test1.mp3" \
	    --task-type chat_aiao
done

# 自律モード
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
	--instruction "" \
	--input-audio "examples/test_autonomous1.mp3" \
	--task-type chat_aiao_auto

Gradioデモ

python gradio_demo.py

高度な使用法

詳細については、コードリポジトリを参照してください。

📚 ドキュメント

基礎モデル

モデル	説明	ダウンロードリンク
Voila-base	Voilaのベースモデル	https://huggingface.co/maitrix-org/Voila-base
Voila-Chat	エンドツーエンドの音声チャットモデル	https://huggingface.co/maitrix-org/Voila-chat
Voila-Autonomous (preview)	全二重音声チャットモデル	https://huggingface.co/maitrix-org/Voila-autonomous-preview
Voila-Audio-alpha	生の音声入力をサポートするLLM	https://huggingface.co/maitrix-org/Voila-audio-alpha
Voila-Tokenizer	音声トークナイザー	https://huggingface.co/maitrix-org/Voila-Tokenizer

データセット

我々は以下の2つのデータセットを公開しています：Voila BenchmarkとVoila Voice Library。Voila-Benchmarkは新しい音声評価ベンチマークであり、Voila Voice Libraryは数百万の事前構築済みおよびカスタマイズ可能な音声を提供します。

データセット	説明	ダウンロードリンク
Voila Benchmark	Voila Benchmarkの評価	https://huggingface.co/datasets/maitrix-org/Voila-Benchmark
Voila Voice Library	数百万の事前構築済み音声	https://huggingface.co/datasets/maitrix-org/Voila-million-voice

ベンチマーク

1. Voila Benchmark

我々はVoilaBenchmarkという新しい音声評価ベンチマークを導入しました。Voila Benchmarkは、MMLU、MATH、OpenAI HumanEval、NQ-Open、GSM8kという5つの広く使用されている言語モデル評価データセットからサンプリングして構築されています。我々の結果をSpeechGPTとMoshiと比較しています。

モデル	Voila Benchmark
SpeechGPT	13.29
Moshi	11.45
Voila	30.56

(数値が高いほど良い)

Voila Benchmarkの各特定ドメインにおける詳細なスコアについては、我々の論文（セクション5.1 "Evaluation of Voila Benchmark"）を参照してください。

2. 自動音声認識（ASR）の評価

Voilaは自動音声認識（ASR）、テキスト読み上げ（TTS）、音声質問応答などの複数のタスクをサポートしているため、ASRとTTSの性能も評価しています。 ASRについては、LibriSpeech test-cleanデータセットで性能を評価し、単語誤り率（WER）を指標として使用しています。Voilaは4.8%の単語誤り率（WER）を達成し、Moshiが報告した5.7%を上回っています。両モデルがLibriSpeechのトレーニングデータを使用するシナリオでは、Voilaは2.7%という印象的なWERを達成しています。

モデル	LibriSpeech test-clean (WER)
Whisper large v2	2.7
Whisper large v3	2.2
FastConformer	3.6
VoxtLM	2.7
Moshi	5.7
Voila (w/o LibriSpeech train split)	4.8
Voila (with LibriSpeech train split)	2.7

(数値が低いほど良い)

3. テキスト読み上げ（TTS）の評価

TTSについては、Vall-Eで提案された評価指標に従い、生成された音声をHuBERT-Largeで文字起こしすることで評価しています。 Voilaは再び3.2%のWER（LibriSpeechのトレーニングデータを使用する場合は2.8%）で首位を占めています。

モデル	LibriSpeech test-clean (WER)
YourTTS	7.7
Vall-E	5.9
Moshi	4.7
Voila (w/o LibriSpeech train split)	3.2
Voila (with LibriSpeech train split)	2.8

(数値が低いほど良い)

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

🔧 技術詳細

本プロジェクトでは、以下の技術要素が使用されています。

ベースモデル：maitrix-org/Voila-base
パイプラインタグ：audio-to-audio
サポート言語：英語、中国語、フランス語、ドイツ語、日本語、韓国語

📚 引用

もしあなたが我々の研究が役に立ったと感じた場合は、以下のように引用してください。

@article{voila2025,
  author    = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
  title     = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
  eprint={2505.02707},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  year      = {2025}
}