Ultravox - v0_3オープンソースマルチモーダル音声モデル - 無料でデプロイ可能、音声とテキスト入力を処理できる

ホーム

Ultravox V0 3

fixie-aiによって開発

UltravoxはLlama3.1-8B-InstructとWhisper-smallを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

テキスト生成オーディオ

Transformers

英語オープンソースライセンス:MIT #音声テキストマルチモーダル #低遅延音声処理 #多言語翻訳

ダウンロード数 48.30k

リリース時間 : 7/25/2024

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキスト入力を受け取り、テキスト出力を生成します。音声エージェント、音声から音声への翻訳、音声分析などのタスクに適しています。

モデル特徴

マルチモーダル入力

音声とテキスト入力を同時に受け取り、特殊な疑似トークン<|audio|>で音声埋め込みベクトルを処理できます。

音声理解

音声内容を理解し処理でき、音声エージェントや音声分析タスクに適しています。

知識蒸留

知識蒸留損失関数を採用し、モデルがテキストベースのLlamaバックボーンネットワークの論理出力に一致できるようにします。

モデル能力

音声認識

テキスト生成

音声からテキストへの翻訳

音声分析

使用事例

音声エージェント

音声アシスタント

音声アシスタントとして、ユーザーの質問に答え、支援を提供します。

音声翻訳

音声から音声への翻訳

ある言語の音声入力を別の言語のテキスト出力に翻訳します。

英独翻訳 BLEU 22.68、西英翻訳 BLEU 24.10

音声分析

音声内容分析

音声内容を分析し、キー情報を抽出または要約を生成します。

🚀 ウルトラボックス (Ultravox)

ウルトラボックス (Ultravox) は、事前学習済みの Llama3.1-8B-Instruct と Whisper-small をバックボーンに構築されたマルチモーダル音声大規模言語モデル (LLM) です。GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

ウルトラボックス (Ultravox) は、音声とテキストの両方を入力として扱うことができるマルチモーダルモデルです。このモデルは、音声エージェントとして使用したり、音声翻訳や音声分析などに活用することができます。

✨ 主な機能

音声とテキストの両方を入力として受け付けることができます。
特殊な <|audio|> 疑似トークンを使用して、音声入力をモデルに渡すことができます。
将来的には、音声出力をサポートする予定です。

📦 インストール

モデルを使用するには、以下のコマンドを実行して必要なライブラリをインストールします。

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_3', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

📚 ドキュメント

モデルの詳細

モデルの説明

ウルトラボックス (Ultravox) は、音声とテキストの両方を入力として受け付けることができるマルチモーダルモデルです。モデルへの入力は、特殊な <|audio|> 疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサはこのマジックトークンを入力音声から導出された埋め込みで置き換えます。マージされた埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来のバージョンでは、トークン語彙を拡張して、意味的および音響的な音声トークンの生成をサポートする予定です。これらのトークンは、ボコーダーに供給されて音声出力を生成することができます。

開発者: Fixie.ai
ライセンス: MIT

モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照してください

学習の詳細

学習データ

学習データセットは、ASRデータセットの混合であり、Llama 3.1 8Bによって生成された「続き」を追加することで拡張されています。

学習手順

教師付き音声から音声への微調整を行っています。詳細については、ウルトラボックス (Ultravox) リポジトリの学習コードを参照してください。

学習ハイパーパラメータ

学習方式: BF16混合精度学習
使用ハードウェア: 8x H100 GPU

速度、サイズ、時間

現在のウルトラボックス (Ultravox) のバージョンでは、音声コンテンツを使用して呼び出すと、最初のトークンまでの時間 (TTFT) は約200msで、A100-40GB GPUを使用した場合の1秒あたりのトークン生成速度は約50-100です。すべてLlama 3.1 8Bバックボーンを使用しています。

TheFastest.ai の音声タブで、毎日のベンチマークと他の既存モデルとの比較を確認できます。

評価

	en_de (BLEU)	es_en (BLEU)	LibriSpeech clean.test (WER)
ウルトラボックス (Ultravox) v0.2	12.07	15.17	6.07
ウルトラボックス (Ultravox) v0.3	22.68	24.10	6.67
Whisper-Llama3.1	24.89	28.67	3.4
Llama3.1 (テキストのみ)	31.95	38.28	-