オープンソースUltravox - v0_2マルチモーダル音声モデル - 音声とテキスト入力処理をサポート

ホーム

Ultravox V0 2

fixie-aiによって開発

UltravoxはLlama3-8B-InstructとWhisper-smallを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers

英語オープンソースライセンス:MIT #音声テキストマルチモーダル #リアルタイム音声インタラクション #コマンドフォローダイアログ

ダウンロード数 792

リリース時間 : 6/7/2024

モデル概要

Ultravoxはマルチモーダルモデルで、音声とテキスト入力（システムテキストプロンプトやユーザー音声メッセージなど）を受け取り、テキスト出力を生成します。音声エージェント、音声間翻訳、音声分析などのシナリオに適しています。

モデル特徴

マルチモーダル入力

音声とテキスト入力を同時に受け取り、特殊な疑似トークン<|audio|>を使用して音声埋め込みを処理します。

音声理解

音声を聴取し理解する能力を備えており、音声エージェントや音声分析などのシナリオに適しています。

将来の拡張

音声出力のための意味的・音響的音声トークンの生成をサポートする予定です。

モデル能力

音声認識

テキスト生成

マルチモーダル入力処理

音声エージェント

音声間翻訳

音声分析

使用事例

音声エージェント

音声アシスタント

音声アシスタントとしてユーザーの質問に答え、支援を提供します。

音声翻訳

音声間翻訳

ある言語の音声入力を別の言語の音声出力に変換します。

音声分析

音声内容分析

音声内容を分析し、キー情報や感情を抽出します。

🚀 Ultravox

Ultravoxは、事前学習されたLlama3-8B-InstructとWhisper-smallをバックボーンとするマルチモーダル音声LLMです。
GitHubリポジトリや詳細情報については、https://ultravox.ai を参照してください。

🚀 クイックスタート

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです。モデルの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサはこのマジックトークンを入力音声から導出された埋め込みに置き換えます。この結合された埋め込みを入力として、モデルは通常通り出力テキストを生成します。

✨ 主な機能

音声とテキストの両方を入力として受け取り、出力テキストを生成できます。
将来的には、音声出力を生成するためのサポートを拡張する予定です。

📦 インストール

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_2', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

📚 ドキュメント

モデルの詳細

モデルの説明

Ultravoxは、音声とテキストの両方を入力として受け取ることができるマルチモーダルモデルです（例：テキストのシステムプロンプトと音声のユーザーメッセージ）。モデルの入力は、特殊な<|audio|>疑似トークンを含むテキストプロンプトとして与えられ、モデルプロセッサはこのマジックトークンを入力音声から導出された埋め込みに置き換えます。この結合された埋め込みを入力として、モデルは通常通り出力テキストを生成します。

将来的なUltravoxのリビジョンでは、トークン語彙を拡張して、意味的および音響的な音声トークンの生成をサポートする予定です。これらのトークンは、ボコーダーに供給されて音声出力を生成することができます。このモデルのこのリビジョンには、嗜好調整は適用されていません。