U

Ultravox V0 5 Llama 3 2 1b

fixie-aiによって開発
UltravoxはLlama3.2-1BとWhisper-large-v3を基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
ダウンロード数 167.25k
リリース時間 : 2/6/2025

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキストを入力として受け取り、テキスト出力を生成します。音声理解と言語生成能力を組み合わせており、音声エージェントや音声翻訳などのタスクに適しています。

モデル特徴

マルチモーダル入力
音声とテキストを同時に入力として受け取り、複雑なマルチモーダルタスクを処理できます。
多言語サポート
40以上の言語をサポートし、グローバルなアプリケーションシナリオに適しています。
知識蒸留トレーニング
知識蒸留損失関数によるトレーニングにより、モデルがテキストベースのLlamaバックボーンの論理出力に一致できるようになります。

モデル能力

音声理解
テキスト生成
音声からテキストへの変換
多言語処理
音声エージェント

使用事例

音声インタラクション
音声エージェント
音声入力を理解し応答できるインテリジェントエージェントとして機能
言語翻訳
音声から音声への翻訳
ある言語の音声入力を別の言語のテキストまたは音声出力に変換
covost2データセットで良好な性能、例えばen_de翻訳のBLEUスコア14.21
音声分析
音声内容理解
音声内容を分析し、キー情報を抽出
big bench audioタスクでスコア39.14
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase