ultravox-v0_4_1-llama-3_1-8bオープンソースマルチモーダル音声モデル

ホーム

Ultravox V0 4 1 Llama 3 1 8b

fixie-aiによって開発

UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers

複数言語対応オープンソースライセンス:MIT #マルチモーダル音声理解 #低遅延音声インタラクション #多言語音声翻訳

ダウンロード数 747

リリース時間 : 11/5/2024

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキスト入力を受け取り、テキスト出力を生成します。音声エージェント、音声翻訳、音声分析などのシナリオに適しています。

モデル特徴

マルチモーダル入力

音声とテキスト入力を同時に受け取り、特殊な疑似トークン<|audio|>で音声埋め込みを処理します。

多言語サポート

中国語、英語、スペイン語など15言語をサポートしています。

効率的な推論

A100-40GB GPU使用時、音声コンテンツの最初のトークン遅延は約150ms、トークン生成速度は約50-100個/秒です。

モデル能力

音声認識

テキスト生成

音声翻訳

音声分析

使用事例

音声エージェント

音声アシスタント

音声アシスタントとしてユーザーの質問に答えます。

音声翻訳

多言語翻訳

音声入力を複数の言語に翻訳します。

英アラビア語翻訳でBLEUスコア12.28、英独翻訳で27.13を達成しました。

🚀 Ultravoxのモデルカード

Ultravoxは、事前学習されたLlama3.1-8B-Instructとwhisper-large-v3-turboをバックボーンとするマルチモーダルな音声LLMです。

GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

Ultravoxを使用するには、以下の手順に従ってください。

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: ここにオーディオを指定
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

✨ 主な機能

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです。音声エージェントとして使用したり、音声翻訳や音声分析などにも利用できます。

📦 インストール

必要なライブラリをインストールするには、以下のコマンドを実行してください。

pip install transformers peft librosa

📚 ドキュメント

モデルの詳細

モデルの説明

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです（例えば、テキストのシステムプロンプトと音声のユーザーメッセージ）。モデルへの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルのプロセッサーはこのマジックトークンを入力音声から導出された埋め込みに置き換えます。このマージされた埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来のバージョンでは、トークンの語彙を拡張して、意味的および音響的な音声トークンの生成をサポートし、それをボコーダーに供給して音声出力を生成する予定です。このバージョンのモデルには、嗜好調整は適用されていません。

開発者: Fixie.ai
ライセンス: MIT

モデルのソース

リポジトリ: https://ultravox.ai
デモ: リポジトリを参照

学習の詳細

学習データ

学習データセットは、ASRデータセットと、Llama 3.1 8Bによって生成された続きで拡張されたデータセット、および音声翻訳データセットの混合です。これにより、翻訳評価でわずかな改善が見られます。

学習手順

知識蒸留による教師付き音声命令微調整。詳細については、Ultravoxリポジトリの学習コードを参照してください。

学習ハイパーパラメータ

学習方式: BF16混合精度学習
使用ハードウェア: 8x H100 GPU

速度、サイズ、時間

現在のバージョンのUltravoxは、音声コンテンツを入力した場合、A100-40GB GPUを使用してLlama 3.1 8Bバックボーンを使用すると、最初のトークンまでの時間（TTFT）は約150msで、1秒あたりのトークン生成速度は約50-100です。

TheFastest.aiの音声タブで、毎日のベンチマークと他の既存モデルとの比較を確認できます。

🔧 技術詳細

モデルは、事前学習されたLlama3.1-8B-Instructとwhisper-large-v3-turboをバックボーンとして使用しています。学習では、マルチモーダルアダプターのみが学習され、WhisperエンコーダーとLlamaは凍結されたままです。知識蒸留損失を使用して、UltravoxがテキストベースのLlamaバックボーンのロジットに一致するようにしています。