Voila-Tokenizerオープンソース音声 - 言語モデル - 複数のオーディオタスクをサポートし、人間と機械のインタラクション体験を向上させます

ホーム

Voila Tokenizer

maitrix-orgによって開発

Voilaは人間と機械のインタラクション体験を向上させるために設計された大規模な音声-言語基盤モデルシリーズで、様々な音声タスクと言語をサポートします。

テキスト生成オーディオ

Transformers

複数言語対応オープンソースライセンス:MIT #リアルタイム音声インタラクション #多言語音声合成 #エンドツーエンド音声処理

ダウンロード数 4,912

リリース時間 : 2/26/2025

モデル概要

Voilaは革新的なエンドツーエンドモデル設計と階層型Transformerアーキテクチャを採用し、低遅延かつ高忠実度の音声インタラクションを実現、自動音声認識(ASR)、テキスト読み上げ(TTS)、音声翻訳など多様なタスクをサポートします。

モデル特徴

高忠実度・低遅延

リアルタイムストリーミング音声処理を実現、遅延は195ミリ秒まで低減し、人間の平均反応時間を上回ります。

音声と言語モデリングの統合

音声と言語モデリング能力を効率的に統合し、豊かなインタラクション体験を提供します。

多言語サポート

6言語の自動音声認識、テキスト読み上げ、音声翻訳をサポートします。

カスタマイズ可能な音声

数百万のプリセットおよびカスタム音声を提供、会話中に素早く音声を切り替えられます。

モデル能力

自動音声認識(ASR)

テキスト読み上げ(TTS)

音声翻訳

リアルタイム音声インタラクション

多言語サポート

使用事例

音声インタラクション

リアルタイム音声チャット

低遅延のリアルタイム音声会話をサポート、カスタマーサービスや仮想アシスタントなどのシナリオに適しています。

遅延は195ミリ秒まで低減、自然で滑らかなインタラクション体験を提供します。

音声合成

多言語TTS

6言語のテキスト読み上げをサポート、オーディオブックやナビゲーション案内などのシナリオに適しています。

単語誤り率(WER)は2.8%まで低減、高品質な音声を実現します。

音声認識

多言語ASR

6言語の自動音声認識をサポート、会議議事録や音声文字起こしなどのシナリオに適しています。

単語誤り率(WER)は2.7%まで低減、高い認識精度を実現します。

🚀 Voila: Voice-Language Foundation Models

Voilaは、人間とAIの対話体験を次のレベルに引き上げることを目指した、新しい大規模音声言語基盤モデルのファミリーです。従来の音声AIシステムの制約（高いレイテンシー、声のニュアンスの喪失、機械的な応答）から脱却し、革新的なエンドツーエンドのモデル設計と新しい階層型Transformerアーキテクチャを採用しています。このアプローにより、最低195ミリ秒のレイテンシーで、リアルタイムで自律的かつ豊かな音声対話が可能となり、平均的な人間の反応時間を上回っています。高度な音声と言語モデリングを組み合わせることで、Voilaはカスタマイズ可能なペルソナ駆動型の対話を提供し、ASRやTTSから6か国語にまたがる音声翻訳まで、さまざまな音声タスクで優れた性能を発揮します。

🚀 クイックスタート

Voilaは、人間とAIの対話体験を新たなレベルに引き上げる音声言語基盤モデルです。以下に、Voilaの使用方法を紹介します。

✨ 主な機能

高忠実度、低レイテンシーのリアルタイムストリーミング音声処理
音声と言語モデリング機能の効果的な統合
数百万の事前構築済みおよびカスタマイズ可能な音声、会話中の高速音声切り替え
さまざまな音声タスクに対応した統一モデル

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

CLIデモ

for model_name in "maitrix-org/Voila-audio-alpha" "maitrix-org/Voila-base" "maitrix-org/Voila-chat"; do
    # テキストチャット
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-text "Hello" \
	    --task-type chat_tito
    # 音声チャット
    python infer.py \
        --model-name ${model_name} \
	    --instruction "" \
	    --input-audio "examples/test1.mp3" \
	    --task-type chat_aiao
done

# 自律モード
python infer.py \
    --model-name "maitrix-org/Voila-autonomous-preview" \
	--instruction "" \
	--input-audio "examples/test_autonomous1.mp3" \
	--task-type chat_aiao_auto

Gradioデモ

python gradio_demo.py

詳細な情報については、コードリポジトリを参照してください。

📚 ドキュメント

データセット

以下の2つのデータセットを公開しています：Voila BenchmarkとVoila Voice Library。Voila-Benchmarkは新しい音声評価ベンチマークであり、Voila Voice Libraryは数百万の事前構築済みおよびカスタマイズ可能な音声を提供します。

データセット	説明	ダウンロードリンク
Voila Benchmark	Voila Benchmarkの評価	https://huggingface.co/datasets/maitrix-org/Voila-Benchmark
Voila Voice Library	数百万の事前構築済み音声	https://huggingface.co/datasets/maitrix-org/Voila-million-voice

ベンチマーク

1. Voila Benchmark

新しい音声評価ベンチマークであるVoila Benchmarkを導入しました。Voila Benchmarkは、MMLU、MATH、OpenAI HumanEval、NQ-Open、GSM8kの5つの広く使用されている言語モデル評価データセットからサンプリングして構築されています。結果をSpeechGPTとMoshiと比較しています。

モデル	Voila Benchmark
SpeechGPT	13.29
Moshi	11.45
Voila	30.56

（数値が高いほど良い）

Voila Benchmarkの各特定ドメインにおける詳細なスコアについては、論文（セクション5.1 "Evaluation of Voila Benchmark"）を参照してください。

2. ASRの評価

Voilaは、自動音声認識（ASR）、テキスト読み上げ（TTS）、音声質問応答などの複数のタスクをサポートしているため、ASRとTTSの性能も評価しています。 ASRについては、LibriSpeech test-cleanデータセットでの性能を評価し、単語誤り率（WER）を指標として使用しています。Voilaは4.8％の単語誤り率（WER）を達成し、Moshiが報告した5.7％を上回っています。両方のモデルがLibriSpeechのトレーニングデータを使用するシナリオでは、Voilaは2.7％の印象的なWERを達成しています。

モデル	LibriSpeech test-clean (WER)
Whisper large v2	2.7
Whisper large v3	2.2
FastConformer	3.6
VoxtLM	2.7
Moshi	5.7
Voila (w/o LibriSpeech train split)	4.8
Voila (with LibriSpeech train split)	2.7

（数値が低いほど良い）

3. TTSの評価

TTSについては、Vall-Eで提案された評価指標に従い、HuBERT-Largeを使用して生成された音声を文字起こししています。 Voilaは再び、3.2％のWER（LibriSpeechのトレーニングデータを使用する場合は2.8％）で首位を占めています。

モデル	LibriSpeech test-clean (WER)
YourTTS	7.7
Vall-E	5.9
Moshi	4.7
Voila (w/o LibriSpeech train split)	3.2
Voila (with LibriSpeech train split)	2.8

（数値が低いほど良い）

🔧 技術詳細

このREADMEには具体的な技術詳細が記載されていないため、このセクションをスキップします。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📚 引用

もし私たちの研究が役に立った場合は、以下のように引用してください。

@article{voila2025,
  author    = {Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu},
  title     = {Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Roleplay},
  eprint={2505.02707},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  year      = {2025}
}