U

Ultravox V0 5 Llama 3 3 70b

fixie-aiによって開発
UltravoxはLlama3.3-70BとWhisperを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力をサポートし、音声エージェントや翻訳などのシナリオに適しています。
ダウンロード数 3,817
リリース時間 : 1/31/2025

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキスト入力を同時に受け取り、特殊な疑似トークンを通じて音声埋め込みを融合し、テキスト出力を生成します。将来のバージョンでは音声生成のサポートを計画しています。

モデル特徴

マルチモーダル入力サポート
音声とテキスト入力を同時に処理し、特殊なトークンを通じて音声埋め込みを融合
多言語サポート
40以上の言語の音声とテキスト処理をサポート
高性能翻訳
複数の言語ペアの音声翻訳タスクで優れた性能を発揮
将来の音声生成能力
将来のバージョンで意味的および音響的音声トークンの生成をサポートし、音声出力を実現する予定

モデル能力

音声理解
多言語音声認識
音声翻訳
音声エージェント
音声分析
テキスト生成

使用事例

音声インタラクション
音声アシスタント
インテリジェント音声アシスタントとしてユーザーの質問に回答
自然で流暢な会話体験
翻訳サービス
リアルタイム音声翻訳
ある言語の音声を別の言語のテキストにリアルタイムで翻訳
covost2テストセットで20-49 BLEUスコアを達成
コンテンツ分析
音声コンテンツ分析
音声コンテンツを分析し、要約やキー情報を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase