Ultravox-v0_5-llama-3_2-1bオープンソースモデル - マルチモーダルで音声とテキスト入力処理をサポート

ホーム

Ultravox V0 5 Llama 3 2 1b

fixie-aiによって開発

UltravoxはLlama3.2-1BとWhisper-large-v3を基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

テキスト生成オーディオ

Transformers

複数言語対応オープンソースライセンス:MIT #音声テキストマルチモーダル #多言語音声理解 #音声コマンドインタラクション

ダウンロード数 167.25k

リリース時間 : 2/6/2025

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキストを入力として受け取り、テキスト出力を生成します。音声理解と言語生成能力を組み合わせており、音声エージェントや音声翻訳などのタスクに適しています。

モデル特徴

マルチモーダル入力

音声とテキストを同時に入力として受け取り、複雑なマルチモーダルタスクを処理できます。

多言語サポート

40以上の言語をサポートし、グローバルなアプリケーションシナリオに適しています。

知識蒸留トレーニング

知識蒸留損失関数によるトレーニングにより、モデルがテキストベースのLlamaバックボーンの論理出力に一致できるようになります。

モデル能力

音声理解

テキスト生成

音声からテキストへの変換

多言語処理

音声エージェント

使用事例

音声インタラクション

音声エージェント

音声入力を理解し応答できるインテリジェントエージェントとして機能

言語翻訳

音声から音声への翻訳

ある言語の音声入力を別の言語のテキストまたは音声出力に変換

covost2データセットで良好な性能、例えばen_de翻訳のBLEUスコア14.21

音声分析

音声内容理解

音声内容を分析し、キー情報を抽出

big bench audioタスクでスコア39.14

🚀 Ultravoxのモデルカード

Ultravoxは、事前学習されたLlama3.2-1B-Instructとwhisper-large-v3-turboをバックボーンとするマルチモーダルな音声LLMです。 GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

このモデルは音声を聞き、理解することができるLLMと考えてください。そのため、ボイスエージェントとして使用したり、音声翻訳や音声分析などにも利用できます。

✨ 主な機能

音声とテキストの両方を入力として受け取り、出力テキストを生成できます。
将来的には、音声出力の生成もサポートする予定です。

📦 インストール

モデルを使用するには、以下のコマンドを実行して必要なライブラリをインストールします。

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_5-llama-3_2-1b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

📚 ドキュメント

モデルの詳細

モデルの説明

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです（例えば、テキストのシステムプロンプトと音声のユーザーメッセージ）。モデルへの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサはこのマジックトークンを入力音声から導出された埋め込みで置き換えます。この統合された埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来のバージョンでは、トークン語彙を拡張して、意味的および音響的な音声トークンの生成をサポートする予定です。これらのトークンは、ボコーダーに供給されて音声出力を生成することができます。このバージョンのモデルには、嗜好調整は適用されていません。

開発者: Fixie.ai
ライセンス: MIT

モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照

トレーニングの詳細

モデルは、事前学習されたLlama3.2-1B-Instructのバックボーンとwhisper-large-v3-turboのエンコーダー部分を使用しています。マルチモーダルアダプターはトレーニングされ、Whisperエンコーダーは微調整され、Llamaモデルは凍結されたままです。我々は知識蒸留損失を使用しており、UltravoxはテキストベースのLlamaバックボーンのロジットに一致するようにトレーニングされています。

トレーニングデータ

トレーニングデータセットは、ASRデータセットとLlama 3.1 8Bによって生成された続きを拡張したもの、および音声翻訳データセットの混合です。これにより、翻訳評価でわずかな改善が見られます。

トレーニング手順

知識蒸留を通じた教師付き音声命令微調整です。詳細については、Ultravoxリポジトリのトレーニングコードを参照してください。

トレーニングハイパーパラメータ

トレーニング方式: BF16混合精度トレーニング
使用ハードウェア: 8x H100 GPU

速度、サイズ、時間

毎日のベンチマークと他の既存モデルとの比較については、TheFastest.aiのオーディオタブを参照してください。

🔧 技術詳細

評価

	Ultravox 0.5 1b	Ultravox 0.5 8B	Ultravox 0.5 70B
covost2 en_ar	1.55	12.99	20.21
covost2 en_ca	8.06	31.54	40.01
covost2 en_de	14.21	28.70	34.53
covost2 es_en	24.97	40.19	43.29
covost2 ru_en	24.12	42.13	48.99
covost2 zh_en	4.76	17.22	21.37
big bench audio	39.14	66.54	82.70