U

Ultravox V0 4 1 Llama 3 1 70b

fixie-aiによって開発
Ultravoxは、事前学習済みのLlama3.1-70B-Instructとwhisper-large-v3-turboバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。
ダウンロード数 204
リリース時間 : 11/5/2024

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキストの両方を同時に入力として受け取ることができます(例えば、テキストシステムプロンプトと音声ユーザーメッセージ)。モデルの入力は特殊な疑似トークンを含むテキストプロンプトで、モデルプロセッサはこのトークンを入力音声の埋め込み表現に置き換えます。

モデル特徴

マルチモーダル入力
音声とテキストの両方を入力として受け取り、音声埋め込みを含むテキストプロンプトを処理できます。
多言語サポート
中国語、英語、スペイン語など15言語の音声とテキスト処理をサポートしています。
知識蒸留トレーニング
知識蒸留による教師付き音声命令ファインチューニングを行い、テキストベースのLlamaバックボーンの論理出力にマッチさせます。

モデル能力

音声認識
テキスト生成
多言語翻訳
音声音声分析

使用事例

音声エージェント
音声アシスタント
音声エージェントとして使用し、ユーザーの質問に答えます。
音声翻訳
音声から音声への翻訳
複数の言語間での音声翻訳をサポートします。
英語-アラビア語翻訳で19.64 BLEUスコアを達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase