U

Ultravox V0 6 Gemma 3 27b

fixie-aiによって開発
Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理でき、音声インタラクションシーンに強力なサポートを提供します。
ダウンロード数 641
リリース時間 : 6/20/2025

モデル概要

Ultravoxは事前学習された大規模言語モデル(Llama、Gemma、Qwenなど)と音声エンコーダを中心に構築されており、音声入力を理解してテキスト生成を行うことができ、音声エージェントや音声翻訳などのシーンに適しています。

モデル特徴

マルチモーダル入力サポート
音声とテキストを入力としてサポートし、特殊な<|audio|>疑似タグで音声入力を処理します
言語性能最適化
v0.6シリーズはヒンディー語音声データで学習され、ヒンディー語の音声理解性能が大幅に向上しました
雑音耐性強化
雑音データセットで学習され、雑音に対するロバスト性が向上し、雑音の多い音声を識別できます
将来的な音声出力サポート
語彙を拡張して意味と音響的な音声タグの生成をサポートし、音声出力機能を実現する予定です

モデル能力

音声理解
テキスト生成
音声から音声への翻訳
音声分析
雑音識別

使用事例

音声インタラクション
音声エージェント
音声入力を理解できるスマートエージェントとして機能します
言語翻訳
音声から音声への翻訳
ある言語の音声を別の言語のテキストに翻訳します
covost2データセットで良好な結果を示し、英語からアラビア語のBLEUは12.94です
音声分析
雑音検出
入力音声が明瞭な音声を含むか、単なる雑音かを識別します
musan_noiseデータセットでの再現率は97.45%です
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase