オープンソースのUltravox多モーダル音声大モデル - 音声とテキスト入力をサポートし、多言語タスクを簡単にこなす

ホーム

Ultravox V0 5 Llama 3 3 70b Tempfix

zhuexeによって開発

Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキストを同時に入力として受け取り、複数の言語とタスクをサポートします。

テキスト生成オーディオ

Transformers

複数言語対応オープンソースライセンス:MIT #マルチモーダル音声理解 #音声翻訳強化 #低遅延応答

ダウンロード数 35

リリース時間 : 5/2/2025

モデル概要

UltravoxはLlama3.3-70B-Instructとwhisper-large-v3-turboをベースにしたマルチモーダルモデルで、音声とテキスト入力を処理でき、音声エージェント、音声翻訳、音声分析などのタスクに適しています。

モデル特徴

マルチモーダル入力

音声とテキスト入力を同時に受け取り、特殊な疑似トークン`<|audio|>`を使用してオーディオ埋め込みを処理します。

多言語サポート

40以上の言語をサポートし、グローバルな多言語アプリケーションシナリオに適しています。

高性能推論

最初のトークン生成時間（TTFT）は約150ミリ秒で、トークン生成速度は毎秒50-100トークンです。

モデル能力

音声認識

音声翻訳

音声分析

マルチモーダル入力処理

テキスト生成

使用事例

音声エージェント

音声アシスタント

音声エージェントとして、ユーザーの質問に答え、支援を提供します。

音声入力を効率的に処理し、自然言語の応答を生成します。

音声翻訳

多言語音声翻訳

ある言語の音声を別の言語のテキストまたは音声に翻訳します。

英語から中国語など、複数の言語ペアで優れた性能を発揮し、BLEUスコアは21.37です。

音声分析

音声コンテンツ分析

音声コンテンツを分析し、キー情報を抽出します。

複数の言語と複雑なシナリオでの音声分析をサポートします。

🚀 ウルトラボックス (Ultravox)

ウルトラボックスは、事前学習された[Llama3.3 - 70B - Instruct](https://huggingface.co/meta - llama/Llama - 3.3 - 70B - Instruct)と[whisper - large - v3 - turbo](https://huggingface.co/openai/whisper - large - v3 - turbo)をバックボーンとするマルチモーダル音声LLMです。GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

ウルトラボックスは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです。以下の手順でモデルを使用できます。

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_5-llama-3_3-70b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

✨ 主な機能

ウルトラボックスは、音声を聞き、理解することができるLLMと考えることができます。音声エージェントとして使用したり、音声翻訳や音声分析などにも利用できます。

📚 ドキュメント

モデルの詳細

モデルの説明

ウルトラボックスは、テキストシステムプロンプトと音声ユーザーメッセージなど、テキストと音声の両方を入力として受け取ることができるマルチモーダルモデルです。モデルへの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサはこのマジックトークンを入力音声から派生した埋め込みで置き換えます。マージされた埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来のバージョンでは、トークン語彙を拡張して、意味的および音響的な音声トークンの生成をサポートし、それをボコーダーに供給して音声出力を生成する予定です。このバージョンのモデルには、嗜好調整は適用されていません。

開発者: Fixie.ai
ライセンス: MIT

モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照

トレーニングの詳細

トレーニングデータ

トレーニングデータセットは、ASRデータセットと、Llama 3.1 8Bによって生成された続きで拡張されたデータ、および音声翻訳データセットの混合です。これにより、翻訳評価で若干の改善が見られます。

トレーニング手順

知識蒸留を通じた教師付き音声命令微調整です。詳細については、ウルトラボックスリポジトリのトレーニングコードを参照してください。

トレーニングハイパーパラメータ

トレーニング方式: BF16混合精度トレーニング
使用ハードウェア: 8x H100 GPU

速度、サイズ、時間

現在のウルトラボックスのバージョンは、音声コンテンツを使用して呼び出されると、A100 - 40GB GPUを使用した場合、最初のトークンまでの時間 (TTFT) は約150msで、1秒あたりのトークン生成速度は約50 - 100です。すべてLlama 3.3 70Bバックボーンを使用しています。

TheFastest.aiの音声タブで、毎日のベンチマークと他の既存モデルとの比較を確認できます。

評価

	ウルトラボックス 0.4 70B	ウルトラボックス 0.4.1 70B	ウルトラボックス 0.5 70B
covost2 en_ar	14.97	19.64	20.21
covost2 en_ca	35.02	37.58	40.01
covost2 en_de	30.30	32.47	34.53
covost2 es_en	39.55	40.76	43.29
covost2 ru_en	44.16	45.07	48.99
covost2 zh_en	12.16	17.98	21.37
big bench audio	--	76.20	82.70

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

プロパティ	詳細
サポート言語	ar, be, bg, bn, cs, cy, da, de, el, en, es, et, fa, fi, fr, gl, hi, hu, it, ja, ka, lt, lv, mk, mr, nl, pl, pt, ro, ru, sk, sl, sr, sv, sw, ta, th, tr, uk, ur, vi, zh
モデルタイプ	マルチモーダル音声LLM
トレーニングデータ	ASRデータセット、Llama 3.1 8Bによって生成された続きで拡張されたデータ、音声翻訳データセットの混合
メトリクス	bleu
パイプラインタグ	audio - text - to - text
ライセンス	MIT
ライブラリ名	transformers