Ultravox-v0_5-llama-3_2-1bオープンソースモデル - マルチモーダルで音声とテキスト入力処理をサポート

Home

Ultravox V0 5 Llama 3 2 1b

Developed by fixie-ai

UltravoxはLlama3.2-1BとWhisper-large-v3を基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

テキスト生成オーディオ

Transformers

Supports Multiple LanguagesOpen Source License:MIT #音声テキストマルチモーダル #多言語音声理解 #音声コマンドインタラクション

Downloads 167.25k

Release Time : 2/6/2025

Model Overview

Ultravoxはマルチモーダルモデルで、音声とテキストを入力として受け取り、テキスト出力を生成します。音声理解と言語生成能力を組み合わせており、音声エージェントや音声翻訳などのタスクに適しています。

Model Features

マルチモーダル入力

音声とテキストを同時に入力として受け取り、複雑なマルチモーダルタスクを処理できます。

多言語サポート

40以上の言語をサポートし、グローバルなアプリケーションシナリオに適しています。

知識蒸留トレーニング

知識蒸留損失関数によるトレーニングにより、モデルがテキストベースのLlamaバックボーンの論理出力に一致できるようになります。

Model Capabilities

音声理解

テキスト生成

音声からテキストへの変換

多言語処理

音声エージェント

Use Cases

音声インタラクション

音声エージェント

音声入力を理解し応答できるインテリジェントエージェントとして機能

言語翻訳

音声から音声への翻訳

ある言語の音声入力を別の言語のテキストまたは音声出力に変換

covost2データセットで良好な性能、例えばen_de翻訳のBLEUスコア14.21

音声分析

音声内容理解

音声内容を分析し、キー情報を抽出

big bench audioタスクでスコア39.14

🚀 Ultravoxのモデルカード

Ultravoxは、事前学習されたLlama3.2-1B-Instructとwhisper-large-v3-turboをバックボーンとするマルチモーダルな音声LLMです。 GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

このモデルは音声を聞き、理解することができるLLMと考えてください。そのため、ボイスエージェントとして使用したり、音声翻訳や音声分析などにも利用できます。

✨ 主な機能

音声とテキストの両方を入力として受け取り、出力テキストを生成できます。
将来的には、音声出力の生成もサポートする予定です。

📦 インストール

モデルを使用するには、以下のコマンドを実行して必要なライブラリをインストールします。

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_5-llama-3_2-1b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

📚 ドキュメント

モデルの詳細

モデルの説明

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです（例えば、テキストのシステムプロンプトと音声のユーザーメッセージ）。モデルへの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサはこのマジックトークンを入力音声から導出された埋め込みで置き換えます。この統合された埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来のバージョンでは、トークン語彙を拡張して、意味的および音響的な音声トークンの生成をサポートする予定です。これらのトークンは、ボコーダーに供給されて音声出力を生成することができます。このバージョンのモデルには、嗜好調整は適用されていません。

開発者: Fixie.ai
ライセンス: MIT

モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照

トレーニングの詳細

モデルは、事前学習されたLlama3.2-1B-Instructのバックボーンとwhisper-large-v3-turboのエンコーダー部分を使用しています。マルチモーダルアダプターはトレーニングされ、Whisperエンコーダーは微調整され、Llamaモデルは凍結されたままです。我々は知識蒸留損失を使用しており、UltravoxはテキストベースのLlamaバックボーンのロジットに一致するようにトレーニングされています。

トレーニングデータ

トレーニングデータセットは、ASRデータセットとLlama 3.1 8Bによって生成された続きを拡張したもの、および音声翻訳データセットの混合です。これにより、翻訳評価でわずかな改善が見られます。

トレーニング手順

知識蒸留を通じた教師付き音声命令微調整です。詳細については、Ultravoxリポジトリのトレーニングコードを参照してください。

トレーニングハイパーパラメータ

トレーニング方式: BF16混合精度トレーニング
使用ハードウェア: 8x H100 GPU

速度、サイズ、時間

毎日のベンチマークと他の既存モデルとの比較については、TheFastest.aiのオーディオタブを参照してください。

🔧 技術詳細

評価

	Ultravox 0.5 1b	Ultravox 0.5 8B	Ultravox 0.5 70B
covost2 en_ar	1.55	12.99	20.21
covost2 en_ca	8.06	31.54	40.01
covost2 en_de	14.21	28.70	34.53
covost2 es_en	24.97	40.19	43.29
covost2 ru_en	24.12	42.13	48.99
covost2 zh_en	4.76	17.22	21.37
big bench audio	39.14	66.54	82.70