U

Ultravox V0 4 Llama 3 1 70b

fixie-aiによって開発
Ultravoxは、事前学習済みのLlama3.1-70B-InstructとWhisper-mediumバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。
ダウンロード数 79
リリース時間 : 9/10/2024

モデル概要

Ultravoxは、音声とテキストの両方を同時に入力として受け取ることができるマルチモーダルモデルです(例:テキストシステムプロンプトと音声ユーザーメッセージ)。モデルの入力は、特殊な疑似トークン`<|audio|>`を含むテキストプロンプトで、モデルプロセッサはこのトークンを入力音声から生成された埋め込みに置き換えます。

モデル特徴

マルチモーダル入力
音声とテキストの両方を入力として受け取ることができ、さまざまなインタラクションシナリオに適用可能です。
高性能音声認識
Whisper-mediumエンコーダーを基にし、高品質な音声認識能力を提供します。
知識蒸留
知識蒸留損失関数を採用し、UltravoxはテキストベースのLlamaバックボーンの論理出力に一致しようとします。

モデル能力

音声認識
テキスト生成
マルチモーダルインタラクション
音声から音声への翻訳
音声オーディオ分析

使用事例

音声エージェント
音声アシスタント
音声エージェントとして使用され、ユーザーの質問に答えます。
翻訳
音声から音声への翻訳
複数言語の音声翻訳タスクをサポートします。
英→独 BLEU 30.30、西→英 BLEU 39.55
音声分析
音声オーディオ分析
音声内容を分析し、キー情報を抽出します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase