U

Ultravox V0 6 Qwen 3 32b

fixie-aiによって開発
Ultravoxはマルチモーダル音声大規模言語モデルで、音声入力を理解して処理することができ、複数の言語とノイズ環境をサポートします。
ダウンロード数 1,240
リリース時間 : 6/20/2025

モデル概要

Ultravoxは、事前学習された大規模言語モデル(Llama、Gemma、Qwenなど)と音声エンコーダーを中心に構築されたマルチモーダルモデルで、音声とテキストの入力を同時に処理でき、音声エージェント、音声翻訳、音声分析などのタスクに適しています。

モデル特徴

マルチモーダル入力
音声とテキストの入力を同時に処理でき、複雑なインタラクションシーンをサポートします。
多言語サポート
ヒンディー語、中国語、スペイン語など40種以上の言語をサポートします。
ノイズロバスト性
ノイズデータセットで学習され、騒がしい環境の音声を識別して特殊なマークを出力できます。
将来の音声出力
音声出力機能を実現するために、意味と音響オーディオトークンの生成をサポートする拡張を計画しています。

モデル能力

音声理解
音声からテキストへの変換
多言語音声翻訳
ノイズ環境での音声認識
音声エージェントインタラクション

使用事例

音声インタラクション
音声エージェント
音声入力を理解して応答できるインテリジェントエージェントとして機能します。
自然な人間と機械の音声インタラクションを実現
音声翻訳
多言語音声翻訳
ある言語の音声をリアルタイムで別の言語のテキストに翻訳します。
covost2テストセットで12.94 - 49.29のBLEUスコアを達成
音声分析
音声内容分析
音声内容を分析して重要な情報を抽出します。
big bench audioテストセットで69.70%の正解率を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase