U

Ultravox V0 4 1 Mistral Nemo

fixie-aiによって開発
UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。
ダウンロード数 1,285
リリース時間 : 11/7/2024

モデル概要

Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキストを入力として受け取り、テキスト出力を生成できます。Mistral-Nemoの言語理解能力とWhisperの音声処理能力を組み合わせています。

モデル特徴

マルチモーダル入力
音声とテキスト入力を同時に受け取り、特殊マーカー <|audio|> でオーディオ埋め込みを処理
多言語サポート
15言語の音声とテキスト処理をサポート
効率的な推論
最初のトークン生成時間は約150ミリ秒、1秒間に50-100トークンを生成可能
知識蒸留トレーニング
知識蒸留損失関数を使用し、テキストベースのMistralバックボーンモデルの論理出力にマッチング

モデル能力

音声認識
音声翻訳
音声対話
多言語処理
テキスト生成

使用事例

音声インタラクション
音声エージェント
聞いて話せるインテリジェントエージェントとして人間とインタラクション
翻訳サービス
音声から音声への翻訳
ある言語の音声を別の言語のテキストに翻訳
英語-ドイツ語翻訳で28.39 BLEUスコアを達成
音声分析
音声内容理解
音声内容を分析し要約や回答を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase