Ultravox-v0_3オープンソースマルチモーダル音声大規模モデル - 無料でデプロイ可能、音声入力とテキスト入力の両方を処理可能

ホーム

Ultravox V0 3

FriendliAIによって開発

UltravoxはLlama3.1-8B-InstructとWhisper-smallをベースとしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers

英語オープンソースライセンス:MIT #マルチモーダル音声理解 #音声エージェントインタラクション #低遅延音声処理

ダウンロード数 20

リリース時間 : 3/19/2025

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキスト入力（テキストシステムプロンプトや音声ユーザーメッセージなど）を受け取り、テキスト出力を生成します。将来のバージョンでは、意味的・音響的音声トークンを生成して音声出力を生成する予定です。

モデル特徴

マルチモーダル入力

音声とテキスト入力を同時に受け取り、特殊な疑似トークン<|audio|>を使用して音声埋め込みベクトルとテキストプロンプトを統合処理します。

音声理解

音声内容を理解し、対応するテキスト出力を生成でき、音声エージェントや音声翻訳などのタスクに適しています。

知識蒸留

知識蒸留損失関数を使用し、モデルがテキストベースのLlamaバックボーンネットワークの論理出力に一致するようにします。

モデル能力

音声認識

テキスト生成

音声からテキストへの翻訳

音声分析

使用事例

音声エージェント

音声アシスタント

音声エージェントとしてユーザーの質問に答え、友好的で協力的なインタラクション体験を提供します。

音声翻訳

英独翻訳

英語音声をドイツ語テキストに翻訳します。

BLEUスコア22.68

西英翻訳

スペイン語音声を英語テキストに翻訳します。

BLEUスコア24.10

音声認識

LibriSpeechテスト

LibriSpeechクリーンテストセットで音声認識を行います。

WER6.67

🚀 Ultravox

Ultravoxは、事前学習されたLlama3.1-8B-InstructとWhisper-smallをバックボーンとするマルチモーダル音声LLMです。GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです。モデルの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサはこのマジックトークンを入力音声から導出された埋め込みで置き換えます。このマージされた埋め込みを入力として、モデルは通常通り出力テキストを生成します。

✨ 主な機能

音声とテキストの両方を入力として受け取り、出力テキストを生成できます。
将来的には、音声出力を生成する機能をサポートする予定です。

📦 インストール

モデルを使用するには、以下のコマンドで必要なライブラリをインストールします。

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_3', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)