Ultravox V0 4_カテゴリ| AIbaseモデルライブラリ

ホーム

Ultravox V0 4

fixie-aiによって開発

UltravoxはLlama3.1-8B-InstructとWhisper-mediumを基にしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #マルチモーダル音声インタラクション #低遅延音声処理 #多言語音声翻訳

ダウンロード数 1,851

リリース時間 : 8/23/2024

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキスト入力を受け取り、テキスト出力を生成します。音声認識と大規模言語モデルの能力を組み合わせており、音声エージェントや音声から音声への翻訳などのタスクに適しています。

モデル特徴

マルチモーダル入力

音声とテキスト入力を同時に受け取り、特殊な疑似トークン<|audio|>を使用して音声埋め込みベクトルを処理できます。

音声エージェント

音声エージェントとして使用でき、音声コンテンツを理解し生成します。

知識蒸留

知識蒸留損失関数を採用し、モデルがテキストベースのLlamaバックボーンネットワークの論理出力に一致するようにします。

モデル能力

音声認識

テキスト生成

音声から音声への翻訳

音声分析

使用事例

音声エージェント

音声アシスタント

音声アシスタントとしてユーザーの質問に答えます。

翻訳

音声から音声への翻訳

ある言語の音声を別の言語のテキストまたは音声に翻訳します。

英独翻訳BLEU 25.47、西英翻訳BLEU 37.11

音声認識

自動音声認識

音声コンテンツをテキストに変換します。

LibriSpeechクリーンテストセットWER 4.45

🚀 ウルトラボックス

ウルトラボックスは、事前学習済みの Llama3.1-8B-Instruct と Whisper-medium をバックボーンとするマルチモーダル音声大規模言語モデル（LLM）です。このモデルは、音声とテキストの両方を入力として受け取り、自然な対話や音声翻訳などのタスクを行うことができます。

詳細な情報やGitHubリポジトリは、https://ultravox.ai を参照してください。

📚 ドキュメント

🔍 モデルの概要

ウルトラボックスは、音声とテキストの両方を入力として扱うことができるマルチモーダルモデルです。具体的には、テキストのシステムプロンプトと音声のユーザーメッセージを同時に受け取ることができます。モデルへの入力は、特殊な <|audio|> 疑似トークンを含むテキストプロンプトとして与えられ、モデルのプロセッサーがこのマジックトークンを入力音声から導出された埋め込みに置き換えます。そして、これらの統合された埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来的には、ウルトラボックスのバージョンを更新し、トークンボキャブラリを拡張して、意味的および音響的な音声トークンの生成をサポートする予定です。これらのトークンは、ボコーダーに供給されて音声出力を生成することができます。現時点では、このバージョンのモデルには嗜好調整は適用されていません。

開発者: Fixie.ai
ライセンス: MIT

🌐 モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照してください

💻 使用例

基本的な使用法

このモデルは、音声を理解し、応答を生成することができる大規模言語モデル（LLM）と考えることができます。したがって、音声エージェントとして使用したり、音声翻訳や音声分析などのタスクに利用することができます。

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

🔧 技術詳細

📊 トレーニングデータ

このモデルは、事前学習済みの Llama3.1-8B-Instruct バックボーンと Whisper-medium のエンコーダー部分を使用しています。トレーニングでは、マルチモーダルアダプターのみが学習され、WhisperエンコーダーとLlamaは凍結されたままです。

トレーニングデータセットは、自動音声認識（ASR）データセットの混合であり、Llama 3.1 8Bによって生成された「続き」が追加されて拡張されています。

📋 トレーニング手順

教師付き音声から音声への微調整が行われます。詳細については、ウルトラボックスリポジトリのトレーニングコードを参照してください。

⚙️ トレーニングハイパーパラメータ

トレーニング方式: BF16混合精度トレーニング
使用ハードウェア: 8台のH100 GPU

⏱️ 速度、サイズ、時間

現在のウルトラボックスのバージョンでは、音声コンテンツを使用して呼び出された場合、最初のトークンまでの時間（TTFT）は約150msで、A100-40GB GPUを使用した場合の1秒あたりのトークン生成速度は約50-100です。これらの測定はすべて、Llama 3.1 8Bバックボーンを使用して行われています。

TheFastest.ai の音声タブで、毎日のベンチマークと他の既存モデルとの比較を確認できます。