🚀 Ultravoxのモデルカード
Ultravoxは、事前学習されたLlama3.1-8B-Instructとwhisper-large-v3-turboをバックボーンとするマルチモーダルな音声LLMです。
GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。
🚀 クイックスタート
Ultravoxを使用するには、以下の手順に従ってください。
import transformers
import numpy as np
import librosa
pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True)
path = "<path-to-input-audio>"
audio, sr = librosa.load(path, sr=16000)
turns = [
{
"role": "system",
"content": "You are a friendly and helpful character. You love to answer questions for people."
},
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)
✨ 主な機能
Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです。音声エージェントとして使用したり、音声翻訳や音声分析などにも利用できます。
📦 インストール
必要なライブラリをインストールするには、以下のコマンドを実行してください。
pip install transformers peft librosa
📚 ドキュメント
モデルの詳細
モデルの説明
Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです(例えば、テキストのシステムプロンプトと音声のユーザーメッセージ)。
モデルへの入力は、特殊な<|audio|>
疑似トークンを含むテキストプロンプトとして与えられ、モデルのプロセッサーはこのマジックトークンを入力音声から導出された埋め込みに置き換えます。
このマージされた埋め込みを入力として、モデルは通常通り出力テキストを生成します。
将来のバージョンでは、トークンの語彙を拡張して、意味的および音響的な音声トークンの生成をサポートし、それをボコーダーに供給して音声出力を生成する予定です。
このバージョンのモデルには、嗜好調整は適用されていません。
モデルのソース
- リポジトリ: https://ultravox.ai
- デモ: リポジトリを参照
学習の詳細
学習データ
学習データセットは、ASRデータセットと、Llama 3.1 8Bによって生成された続きで拡張されたデータセット、および音声翻訳データセットの混合です。これにより、翻訳評価でわずかな改善が見られます。
学習手順
知識蒸留による教師付き音声命令微調整。詳細については、Ultravoxリポジトリの学習コードを参照してください。
学習ハイパーパラメータ
- 学習方式: BF16混合精度学習
- 使用ハードウェア: 8x H100 GPU
速度、サイズ、時間
現在のバージョンのUltravoxは、音声コンテンツを入力した場合、A100-40GB GPUを使用してLlama 3.1 8Bバックボーンを使用すると、最初のトークンまでの時間(TTFT)は約150msで、1秒あたりのトークン生成速度は約50-100です。
TheFastest.aiの音声タブで、毎日のベンチマークと他の既存モデルとの比較を確認できます。
🔧 技術詳細
モデルは、事前学習されたLlama3.1-8B-Instructとwhisper-large-v3-turboをバックボーンとして使用しています。
学習では、マルチモーダルアダプターのみが学習され、WhisperエンコーダーとLlamaは凍結されたままです。
知識蒸留損失を使用して、UltravoxがテキストベースのLlamaバックボーンのロジットに一致するようにしています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
評価
|
Ultravox 0.4 8B |
Ultravox 0.4.1 8B |
en_ar |
11.17 |
12.28 |
en_de |
25.47 |
27.13 |
es_en |
37.11 |
39.16 |
ru_en |
38.96 |
39.65 |
en_ca |
27.46 |
29.94 |
zh_en |
10.08 |
14.55 |
その他の情報
データセット
- fixie-ai/librispeech_asr
- fixie-ai/common_voice_17_0
- fixie-ai/peoples_speech
- fixie-ai/gigaspeech
- fixie-ai/multilingual_librispeech
- fixie-ai/wenetspeech
- fixie-ai/covost2
言語
- ar
- de
- en
- es
- fr
- hi
- it
- ja
- nl
- pt
- ru
- sv
- tr
- uk
- zh
ライブラリ名
transformers
指標
パイプラインタグ
audio-text-to-text