Ultravox-v0_6-gemma-3-27bオープンソース多モーダル音声モデル - 音声とテキスト入力をサポートし、インタラクション体験を向上させます

ホーム

Ultravox V0 6 Gemma 3 27b

fixie-aiによって開発

Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理でき、音声インタラクションシーンに強力なサポートを提供します。

テキスト生成オーディオ

Transformers

複数言語対応オープンソースライセンス:MIT #マルチモーダル音声理解 #雑音耐性音声処理 #ヒンディー語最適化

ダウンロード数 641

リリース時間 : 6/20/2025

モデル概要

Ultravoxは事前学習された大規模言語モデル（Llama、Gemma、Qwenなど）と音声エンコーダを中心に構築されており、音声入力を理解してテキスト生成を行うことができ、音声エージェントや音声翻訳などのシーンに適しています。

モデル特徴

マルチモーダル入力サポート

音声とテキストを入力としてサポートし、特殊な<|audio|>疑似タグで音声入力を処理します

言語性能最適化

v0.6シリーズはヒンディー語音声データで学習され、ヒンディー語の音声理解性能が大幅に向上しました

雑音耐性強化

雑音データセットで学習され、雑音に対するロバスト性が向上し、雑音の多い音声を識別できます

将来的な音声出力サポート

語彙を拡張して意味と音響的な音声タグの生成をサポートし、音声出力機能を実現する予定です

モデル能力

音声理解

テキスト生成

音声から音声への翻訳

音声分析

雑音識別

使用事例

音声インタラクション

音声エージェント

音声入力を理解できるスマートエージェントとして機能します

言語翻訳

音声から音声への翻訳

ある言語の音声を別の言語のテキストに翻訳します

covost2データセットで良好な結果を示し、英語からアラビア語のBLEUは12.94です

音声分析

雑音検出

入力音声が明瞭な音声を含むか、単なる雑音かを識別します

musan_noiseデータセットでの再現率は97.45%です

🚀 Ultravoxモデルカード

Ultravoxは、多モーダル音声大規模言語モデル（LLM）です。このモデルは、事前学習された大規模言語モデル（Llama、Gemma、Qwenなど）と音声エンコーダ（whisper-large-v3-turbo）を中心に構築されています。音声とテキストの入力を同時に処理でき、音声対話シーンに強力なサポートを提供します。

詳細な情報は、GitHubリポジトリをご覧ください：https://ultravox.ai 。

🚀 クイックスタート

このモデルは、音声を「聞き」、理解することができる大規模言語モデルと見なすことができます。したがって、音声エージェントとして使用したり、音声から音声への翻訳や音声分析などを行うことができます。

このモデルを使用するには、以下のコードを参考にしてください：

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_6-llama-3_1-8b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

✨ 主な機能

多モーダル入力：音声とテキストを入力としてサポートし、特殊な <|audio|> 擬似トークンを通じて音声入力を処理します。
言語性能の最適化：v0.6シリーズはヒンディー語の音声データで学習されており、ヒンディー語の音声理解性能が大幅に向上しています。
耐ノイズ性の強化：ノイズデータセットで学習することで、ノイズに対するロバスト性が向上し、雑音の多い音声も識別できます。
将来の機能計画：語彙を拡張し、意味論的および音響的な音声トークンの生成をサポートし、音声出力を実現する予定です。

📚 ドキュメント

🔍 モデルの詳細

📖 モデルの説明

Ultravoxは多モーダルモデルで、音声とテキストを同時に入力として受け付けることができます（例えば、テキストのシステムプロンプトと音声のユーザーメッセージ）。モデルの入力は、特殊な <|audio|> 擬似トークンを含むテキストプロンプトで、モデルプロセッサーはこのトークンを入力音声から抽出された埋め込みで置き換えます。結合された埋め込みを入力として、モデルは通常通り出力テキストを生成します。

v0.6シリーズでは、Ultravoxモデルは拡張されたヒンディー語の音声データで学習されており、これによりヒンディー語の音声理解性能が大幅に向上していますが、他の言語の性能にはわずかな影響があります。また、v0.6モデルはノイズデータセットで学習されており、耐ノイズ性を向上させており、入力音声が雑音が多い場合や明瞭な音声を含まない場合には、特殊な文字列 ((noise)) を出力します。

将来のバージョンでは、語彙を拡張して意味論的および音響的な音声トークンの生成をサポートし、それらのトークンを音声コーダーに入力して音声出力を生成する予定です。このバージョンのモデルは嗜好調整されていません。

開発者：Fixie.ai
ライセンス：MIT

🌐 モデルのソース

リポジトリ：https://ultravox.ai
デモ：リポジトリを参照してください。

💻 使用方法

🔧 学習の詳細

📊 学習データ

学習データセットは、自動音声認識（ASR）データセット、Llama 3.1 8Bで生成された拡張データ、音声翻訳データセット、およびノイズデータセットの混合です。

📋 学習プロセス

知識蒸留を通じて、有監督の音声指令微調整を行っています。詳細な情報は、Ultravoxリポジトリの学習コードを参照してください。

🎛️ 学習ハイパーパラメータ

学習モード：BF16混合精度学習
使用ハードウェア：8x H100 GPU

⏱️ 速度、サイズ、および時間

現在のバージョンのUltravoxは、音声コンテンツを処理する際に、テキストベースの大規模言語モデル（Llama、Gemma、またはQwen）をバックボーンとして使用しています。A100 - 40GB GPUでの最初のトークン生成時間（TTFT）は約150msで、毎秒約50 - 100個のトークンを生成します。

毎日のベンチマークテストや他の既存モデルとの比較については、TheFastest.ai の音声ラベルを参照してください。

📈 評価

評価は、covost2（音声翻訳、BLEUで測定）、fleursおよびultravox_calls（音声認識、WERで測定）、big bench audio（音声推論、正解率で測定）、ならびにmusanおよびultravox_unintelligible（ノイズ/理解困難な音声検出、再現率で測定）で行われました。

	v0_5 - llama - 3_1 - 8b	v0_6 - llama - 3_1 - 8b	v0_5 - llama - 3_3 - 70b	v0_6 - llama - 3_3 - 70b	v0_6 - gemma - 3 - 27b	v0_6 - qwen - 3 - 32b
covost2 en_ar	12.90	12.94	20.21	18.92	22.68	16.91
covost2 en_ca	31.51	31.47	40.01	38.73	39.67	33.63
covost2 en_de	28.60	28.66	34.53	33.69	34.76	31.09
covost2 es_en	40.41	40.36	43.29	41.39	41.11	41.20
covost2 ru_en	42.22	42.41	48.99	43.73	49.29	47.08
covost2 zh_en	16.97	17.24	21.37	17.81	20.88	22.24
librispeech	2.04	2.09	2.09	2.55	2.73	2.88
fleurs cmn_hans_cn	12.11	12.25	11.20	13.49	12.56	12.10
fleurs de_de	6.66	7.56	5.26	7.14	4.86	6.83
fleurs es_419	5.74	5.83	4.53	6.06	4.68	5.14
fleurs hi_in	29.74	10.34	18.90	11.43	8.40	11.78
ultravox_calls (asr)	22.31	20.01	19.56	16.51	19.56	28.67
big bench audio	68.06	69.70	90.15	85.48	83.84	84.22
musan_noise	0.00	97.45	0.00	98.51	99.58	99.78
ultravox_unintelligible	0.00	45.78	0.00	50.00	66.84	64.21