オープンソースUltravox-v0_5-llama-3_1-8bモデル - 音声とテキスト入力をサポートするマルチモーダル処理ツール

ホーム

Ultravox V0 5 Llama 3 1 8b

fixie-aiによって開発

UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

テキスト生成オーディオ

Transformers

複数言語対応オープンソースライセンス:MIT #音声大規模モデル #マルチモーダルインタラクション #リアルタイム音声翻訳

ダウンロード数 17.86k

リリース時間 : 2/5/2025

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキスト入力を同時に受け取り、音声エージェントや音声から音声への翻訳、音声分析などのタスクに使用できます。

モデル特徴

マルチモーダル入力

音声とテキスト入力を同時に処理でき、特殊な疑似トークン<|audio|>を使用して音声埋め込みベクトルとテキストを融合します。

音声理解能力

音声を聴取し理解する能力を備えており、音声エージェントとして使用できます。

知識蒸留トレーニング

知識蒸留損失関数を採用し、モデルがテキストベースのLlamaバックボーンネットワークの論理出力に可能な限り一致するようにしています。

モデル能力

音声理解

音声から音声への翻訳

音声分析

マルチモーダル入力処理

使用事例

音声エージェント

音声アシスタント

音声アシスタントとしてユーザーの質問に答える

音声翻訳

多言語音声翻訳

複数言語の音声から音声への翻訳をサポート

covost2データセットで12.99（英→アラビア語）から42.13（ロシア語→英語）のBLEUスコアを達成

🚀 Ultravoxモデルカード

Ultravoxは、事前学習されたLlama3.1-8B-Instructとwhisper-large-v3-turboをバックボーンとするマルチモーダル音声LLMです。

GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

Ultravoxは、音声とテキストの両方を入力として扱うことができるマルチモーダルモデルです。以下のコード例を参考に、モデルを使用することができます。

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_5-llama-3_1-8b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

✨ 主な機能

このモデルは、音声を聞き取り理解することができるLLMとして機能します。音声エージェントとして使用したり、音声翻訳や音声分析などに利用することができます。

📚 ドキュメント

モデルの詳細

モデルの説明

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです（例えば、テキストのシステムプロンプトと音声のユーザーメッセージ）。モデルへの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサーがこのマジックトークンを入力音声から導出された埋め込みに置き換えます。これらの統合された埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来のバージョンでは、トークンボキャブラリを拡張して、意味的および音響的な音声トークンの生成をサポートし、それをボコーダーに供給して音声出力を生成する予定です。このバージョンのモデルには、嗜好調整は適用されていません。

開発者: Fixie.ai
ライセンス: MIT

モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照

トレーニングの詳細

トレーニングデータ

トレーニングデータセットは、ASRデータセットと、Llama 3.1 8Bによって生成された続きで拡張されたデータセット、および音声翻訳データセットの混合です。これにより、翻訳評価において適度な改善が見られます。

トレーニング手順

知識蒸留による教師付き音声命令微調整です。詳細については、Ultravoxリポジトリのトレーニングコードを参照してください。

トレーニングハイパーパラメータ

トレーニング方式: BF16混合精度トレーニング
使用ハードウェア: 8x H100 GPU

速度、サイズ、時間

現在のUltravoxバージョンは、音声コンテンツで呼び出された場合、A100-40GB GPUを使用し、Llama 3.1 8Bバックボーンを使用すると、最初のトークンまでの時間（TTFT）は約150ms、1秒あたりのトークン生成速度は約50 - 100です。

TheFastest.aiの音声タブで、毎日のベンチマークと他の既存モデルとの比較を確認できます。

🔧 技術詳細

評価

	Ultravox 0.4 8B	Ultravox 0.4.1 8B	Ultravox 0.5 8B
covost2 en_ar	11.17	12.28	12.99
covost2 en_ca	27.46	29.94	31.54
covost2 en_de	25.47	27.13	28.70
covost2 es_en	37.11	39.16	40.19
covost2 ru_en	38.96	39.65	42.13
covost2 zh_en	10.08	14.55	17.22
big bench audio	-	63.20	66.54