U

Ultravox V0 4 1 Llama 3 1 8b

fixie-aiによって開発
UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
ダウンロード数 747
リリース時間 : 11/5/2024

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキスト入力を受け取り、テキスト出力を生成します。音声エージェント、音声翻訳、音声分析などのシナリオに適しています。

モデル特徴

マルチモーダル入力
音声とテキスト入力を同時に受け取り、特殊な疑似トークン<|audio|>で音声埋め込みを処理します。
多言語サポート
中国語、英語、スペイン語など15言語をサポートしています。
効率的な推論
A100-40GB GPU使用時、音声コンテンツの最初のトークン遅延は約150ms、トークン生成速度は約50-100個/秒です。

モデル能力

音声認識
テキスト生成
音声翻訳
音声分析

使用事例

音声エージェント
音声アシスタント
音声アシスタントとしてユーザーの質問に答えます。
音声翻訳
多言語翻訳
音声入力を複数の言語に翻訳します。
英アラビア語翻訳でBLEUスコア12.28、英独翻訳で27.13を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase