Ultravoxオープンソース多モーダルモデル - 音声とテキスト入力をサポート、音声アシスタントと翻訳に使用

ホーム

Ultravox V0 4 1 Mistral Nemo

fixie-aiによって開発

UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。

音声生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #マルチモーダル音声理解 #低遅延音声処理 #多言語音声翻訳

ダウンロード数 1,285

リリース時間 : 11/7/2024

モデル概要

Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキストを入力として受け取り、テキスト出力を生成できます。Mistral-Nemoの言語理解能力とWhisperの音声処理能力を組み合わせています。

モデル特徴

マルチモーダル入力

音声とテキスト入力を同時に受け取り、特殊マーカー <|audio|> でオーディオ埋め込みを処理

多言語サポート

15言語の音声とテキスト処理をサポート

効率的な推論

最初のトークン生成時間は約150ミリ秒、1秒間に50-100トークンを生成可能

知識蒸留トレーニング

知識蒸留損失関数を使用し、テキストベースのMistralバックボーンモデルの論理出力にマッチング

モデル能力

音声認識

音声翻訳

音声対話

多言語処理

テキスト生成

使用事例

音声インタラクション

音声エージェント

聞いて話せるインテリジェントエージェントとして人間とインタラクション

翻訳サービス

音声から音声への翻訳

ある言語の音声を別の言語のテキストに翻訳

英語-ドイツ語翻訳で28.39 BLEUスコアを達成

音声分析

音声内容理解

音声内容を分析し要約や回答を生成

🚀 Ultravoxのモデルカード

Ultravoxは、事前学習されたMistral-Nemo-Instruct-2407とwhisper-large-v3-turboをバックボーンとして構築されたマルチモーダル音声LLMです。

GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです。このモデルは、音声エージェントや音声翻訳などの用途に使用できます。

✨ 主な機能

音声とテキストの両方を入力として受け取ることができるマルチモーダルモデル
音声エージェントや音声翻訳などの用途に使用できる
将来的には、音声出力をサポートする予定

📦 インストール

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-mistral-nemo', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

📚 ドキュメント

モデルの詳細

モデルの説明

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです（例えば、テキストのシステムプロンプトと音声のユーザーメッセージ）。モデルへの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサーはこのマジックトークンを入力音声から導出された埋め込みで置き換えます。マージされた埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来のバージョンのUltravoxでは、トークン語彙を拡張して、意味的および音響的な音声トークンの生成をサポートする予定です。これらのトークンは、ボコーダーに供給されて音声出力を生成することができます。このバージョンのモデルには、嗜好調整は適用されていません。

開発者: Fixie.ai
ライセンス: MIT

モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照

トレーニングの詳細

トレーニングデータ

トレーニングデータセットは、ASRデータセットと、Mistral Nemoによって生成された続きで拡張された音声翻訳データセットの混合です。これにより、翻訳評価でわずかな改善が見られます。

トレーニング手順

知識蒸留を通じた教師付き音声命令微調整。詳細については、Ultravoxリポジトリのトレーニングコードを参照してください。

トレーニングハイパーパラメータ

トレーニング方式: BF16混合精度トレーニング
使用ハードウェア: 8x H100 GPU

速度、サイズ、時間

現在のバージョンのUltravoxは、音声コンテンツを入力として使用する場合、A100-40GB GPUを使用して、最初のトークンまでの時間（TTFT）が約150ms、1秒あたりのトークン生成速度が約50 - 100です。これはすべてMistral Nemoバックボーンを使用しています。

TheFastest.aiの音声タブで、毎日のベンチマークと他の既存モデルとの比較を確認できます。

評価

	Ultravox 0.4.1 Mistral Nemo
en_ar	10.36
en_de	28.39
es_en	37.49
ru_en	41.64
en_ca	26.85
zh_en	12.65

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

プロパティ	詳細
サポート言語	ar, de, en, es, fr, hi, it, ja, nl, pt, ru, sv, tr, uk, zh
ライセンス	MIT
ライブラリ名	transformers
データセット	fixie-ai/librispeech_asr, fixie-ai/common_voice_17_0, fixie-ai/peoples_speech, fixie-ai/gigaspeech, fixie-ai/multilingual_librispeech, fixie-ai/wenetspeech, fixie-ai/covost2
評価指標	bleu
パイプラインタグ	audio-text-to-text