Ultravox-v0_4_1-llama-3_3-70bオープンソースマルチモーダル音声モデル

ホーム

Ultravox V0 4 1 Llama 3 3 70b

fixie-aiによって開発

UltravoxはLlama3.3-70B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #マルチモーダル音声理解 #多言語音声翻訳 #音声エージェントインタラクション

ダウンロード数 26

リリース時間 : 12/16/2024

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキスト入力を同時に受け取り、音声エージェント、音声から音声への翻訳、口語オーディオ分析などのタスクに使用できます。

モデル特徴

マルチモーダル入力

音声とテキスト入力を同時に受け取り、特殊な疑似トークンを含むテキストプロンプトを処理できます。

多言語サポート

15言語の音声とテキスト処理をサポートします。

効率的なトレーニング

マルチモーダルアダプターのみをトレーニングし、WhisperエンコーダーとLlamaは凍結状態を保ち、トレーニング効率を向上させます。

モデル能力

音声認識

テキスト生成

音声から音声への翻訳

口語オーディオ分析

使用事例

音声エージェント

音声アシスタント

音声アシスタントとしてユーザーの質問に答えます。

音声翻訳

多言語音声翻訳

ある言語の音声を別の言語のテキストまたは音声に翻訳します。

英語-アラビア語翻訳でBLEUスコア19.64

🚀 Ultravoxのモデルカード

Ultravoxは、事前学習済みの[Llama3.3 - 70B - Instruct](https://huggingface.co/meta - llama/Llama - 3.3 - 70B - Instruct)と[whisper - large - v3 - turbo](https://huggingface.co/openai/whisper - large - v3 - turbo)をバックボーンとするマルチモーダルな音声LLMです。

GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです。このモデルは、音声エージェントとして使用したり、音声翻訳や音声分析などのタスクに利用することができます。

✨ 主な機能

音声とテキストの両方を入力として受け取ることができます。
音声エージェントとして動作し、音声翻訳や音声分析などのタスクに利用できます。
将来的には、音声出力の生成もサポートする予定です。

📦 インストール

モデルを使用するには、以下のライブラリをインストールします。

# pip install transformers peft librosa

💻 使用例

基本的な使用法

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-70b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

📚 ドキュメント

モデルの詳細

モデルの説明

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです（例えば、テキストのシステムプロンプトと音声のユーザーメッセージ）。モデルへの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサはこのマジックトークンを入力音声から導出された埋め込みで置き換えます。この結合された埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来のバージョンでは、トークンボキャブラリを拡張して、意味的および音響的な音声トークンの生成をサポートし、それをボコーダーに供給して音声出力を生成する予定です。このバージョンのモデルには、嗜好調整は適用されていません。

開発者: Fixie.ai
ライセンス: MIT

モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照

トレーニングの詳細

トレーニングデータ

トレーニングデータセットは、ASRデータセットと、Llama 3.1 8Bによって生成された続きで拡張された音声翻訳データセットの混合です。これにより、翻訳評価でわずかな改善が見られます。

トレーニング手順

知識蒸留を通じた教師付き音声命令微調整です。詳細については、Ultravoxリポジトリのトレーニングコードを参照してください。

トレーニングハイパーパラメータ

トレーニング方式: BF16混合精度トレーニング
使用ハードウェア: 8x H100 GPU

速度、サイズ、時間

現在のバージョンのUltravoxは、音声コンテンツを使用して呼び出された場合、A100 - 40GB GPUを使用し、すべてLlama 3.3 70Bバックボーンを使用すると、最初のトークンまでの時間（TTFT）は約150msで、1秒あたりのトークン生成率は約50 - 100です。

TheFastest.aiの音声タブで、毎日のベンチマークと他の既存モデルとの比較を確認できます。

評価

	Ultravox 0.4 70B	Ultravox 0.4.1 70B
en_ar	14.97	19.64
en_de	30.30	32.47
es_en	39.55	40.76
ru_en	44.16	45.07
en_ca	35.02	37.58
zh_en	12.16	17.98

その他の情報

プロパティ	詳細
サポート言語	ar, de, en, es, fr, hi, it, ja, nl, pt, ru, sv, tr, uk, zh
ライセンス	MIT
ライブラリ名	transformers
データセット	fixie - ai/librispeech_asr, fixie - ai/common_voice_17_0, fixie - ai/peoples_speech, fixie - ai/gigaspeech, fixie - ai/multilingual_librispeech, fixie - ai/wenetspeech, fixie - ai/covost2
評価指標	bleu
パイプラインタグ	audio - text - to - text