Ultravox多モーダル音声大規模モデル - オープンソースで無料、音声とテキスト入力による対話をサポート

ホーム

Ultravox V0 4 Llama 3 1 70b

fixie-aiによって開発

Ultravoxは、事前学習済みのLlama3.1-70B-InstructとWhisper-mediumバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。

音声生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #マルチモーダル音声処理 #音声テキスト相互変換 #多言語サポート

ダウンロード数 79

リリース時間 : 9/10/2024

モデル概要

Ultravoxは、音声とテキストの両方を同時に入力として受け取ることができるマルチモーダルモデルです（例：テキストシステムプロンプトと音声ユーザーメッセージ）。モデルの入力は、特殊な疑似トークン`<|audio|>`を含むテキストプロンプトで、モデルプロセッサはこのトークンを入力音声から生成された埋め込みに置き換えます。

モデル特徴

マルチモーダル入力

音声とテキストの両方を入力として受け取ることができ、さまざまなインタラクションシナリオに適用可能です。

高性能音声認識

Whisper-mediumエンコーダーを基にし、高品質な音声認識能力を提供します。

知識蒸留

知識蒸留損失関数を採用し、UltravoxはテキストベースのLlamaバックボーンの論理出力に一致しようとします。

モデル能力

音声認識

テキスト生成

マルチモーダルインタラクション

音声から音声への翻訳

音声オーディオ分析

使用事例

音声エージェント

音声アシスタント

音声エージェントとして使用され、ユーザーの質問に答えます。

翻訳

音声から音声への翻訳

複数言語の音声翻訳タスクをサポートします。

英→独 BLEU 30.30、西→英 BLEU 39.55

音声分析

音声オーディオ分析

音声内容を分析し、キー情報を抽出します。

🚀 ウルトラボックス

ウルトラボックスは、事前学習済みのLlama3.1 - 70B - InstructとWhisper - mediumをバックボーンとするマルチモーダル音声LLMです。このモデルは、音声とテキストの両方を入力として扱うことができ、音声翻訳や音声分析などのタスクに利用できます。

🚀 クイックスタート

ウルトラボックスは、音声とテキストの両方を入力として受け取り、出力としてテキストを生成するマルチモーダルモデルです。このモデルは、音声を理解し、応答を生成することができます。

✨ 主な機能

音声とテキストの両方を入力として扱うことができます。
音声翻訳や音声分析などのタスクに利用できます。
将来的には、音声出力をサポートする予定です。

📦 インストール

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

💻 使用例

基本的な使用法

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

📚 ドキュメント

モデルの詳細

モデルの説明

ウルトラボックスは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです。モデルへの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサはこのマジックトークンを入力音声から派生した埋め込みで置き換えます。マージされた埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来的なウルトラボックスのリビジョンでは、トークンボキャブラリを拡張して、意味的および音響的な音声トークンの生成をサポートする予定です。これらのトークンは、ボコーダーに供給されて音声出力を生成することができます。このモデルのこのリビジョンには、嗜好調整は適用されていません。

開発者: Fixie.ai
ライセンス: MIT

モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照

トレーニングの詳細

トレーニングデータ

トレーニングデータセットは、ASRデータセットの混合であり、Llama 3.1 70Bによって生成された「続き」を追加することで拡張されています。

トレーニング手順

教師付き音声から音声への微調整。詳細については、ウルトラボックスリポジトリのトレーニングコードを参照してください。

トレーニングハイパーパラメータ

トレーニング方式: BF16混合精度トレーニング
使用ハードウェア: 8x H100 GPU

速度、サイズ、時間

ウルトラボックスの現在のバージョンは、音声コンテンツで呼び出された場合、Llama 3.1 70Bバックボーンを使用し、4xH100 SXM GPUを使用すると、最初のトークンまでの時間（TTFT）が約400ms、1秒あたりのトークン生成速度が約50 - 100トークンです。

TheFastest.aiの音声タブで、毎日のベンチマークと他の既存モデルとの比較を確認できます。

評価

	en_de (BLEU)	es_en (BLEU)	LibriSpeech clean.test (WER)
ウルトラボックス v0.3	22.66	24.74	6.67
ウルトラボックス v0.4 8B	25.47	37.11	4.45
ウルトラボックス v0.4 70B	30.30	39.55	4.49
Llama3.1 8B (テキストのみ)	32.59	44.62	-
Llama3.1 70B (テキストのみ)	38.76	46.39	-