U

Ultravox V0 5 Llama 3 3 70b Tempfix

zhuexeによって開発
Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキストを同時に入力として受け取り、複数の言語とタスクをサポートします。
ダウンロード数 35
リリース時間 : 5/2/2025

モデル概要

UltravoxはLlama3.3-70B-Instructとwhisper-large-v3-turboをベースにしたマルチモーダルモデルで、音声とテキスト入力を処理でき、音声エージェント、音声翻訳、音声分析などのタスクに適しています。

モデル特徴

マルチモーダル入力
音声とテキスト入力を同時に受け取り、特殊な疑似トークン`<|audio|>`を使用してオーディオ埋め込みを処理します。
多言語サポート
40以上の言語をサポートし、グローバルな多言語アプリケーションシナリオに適しています。
高性能推論
最初のトークン生成時間(TTFT)は約150ミリ秒で、トークン生成速度は毎秒50-100トークンです。

モデル能力

音声認識
音声翻訳
音声分析
マルチモーダル入力処理
テキスト生成

使用事例

音声エージェント
音声アシスタント
音声エージェントとして、ユーザーの質問に答え、支援を提供します。
音声入力を効率的に処理し、自然言語の応答を生成します。
音声翻訳
多言語音声翻訳
ある言語の音声を別の言語のテキストまたは音声に翻訳します。
英語から中国語など、複数の言語ペアで優れた性能を発揮し、BLEUスコアは21.37です。
音声分析
音声コンテンツ分析
音声コンテンツを分析し、キー情報を抽出します。
複数の言語と複雑なシナリオでの音声分析をサポートします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase