ultravox-v0_4_1-llama-3_1-8b開源多模態語音模型

首頁

Ultravox V0 4 1 Llama 3 1 8b

由fixie-ai開發

Ultravox是基於Llama3.1-8B-Instruct和whisper-large-v3-turbo構建的多模態語音大語言模型，能夠同時處理語音和文本輸入。

音頻生成文本

Transformers

支持多種語言開源協議:MIT #多模態語音理解 #低延遲語音交互 #多語言語音翻譯

下載量 747

發布時間 : 11/5/2024

模型概述

Ultravox是一個多模態模型，可以接收語音和文本輸入，並生成文本輸出。適用於語音代理、語音翻譯和語音分析等場景。

模型特點

多模態輸入

能夠同時接收語音和文本輸入，通過特殊偽標記<|audio|>處理音頻嵌入。

多語言支持

支持15種語言，包括中文、英語、西班牙語等。

高效推理

在使用A100-40GB GPU時，音頻內容的首token延遲約150ms，token生成速度約50-100個/秒。

模型能力

語音識別

文本生成

語音翻譯

語音分析

使用案例

語音代理

語音助手

作為語音助手回答用戶問題。

語音翻譯

多語言翻譯

將語音輸入翻譯成多種語言。

在英阿翻譯中BLEU得分為12.28，英德翻譯為27.13。

🚀 Ultravox模型介紹

Ultravox是一個多模態語音大語言模型，它基於預訓練的[Llama3.1 - 8B - Instruct](https://huggingface.co/meta - llama/Meta - Llama - 3.1 - 8B)和[whisper - large - v3 - turbo](https://huggingface.co/openai/whisper - large - v3 - turbo)骨幹網絡構建。該模型能夠同時處理語音和文本輸入，具有廣泛的應用前景。更多信息請訪問GitHub倉庫。

📦 模型信息

屬性	詳情
數據集	fixie - ai/librispeech_asr、fixie - ai/common_voice_17_0、fixie - ai/peoples_speech、fixie - ai/gigaspeech、fixie - ai/multilingual_librispeech、fixie - ai/wenetspeech、fixie - ai/covost2
支持語言	ar、de、en、es、fr、hi、it、ja、nl、pt、ru、sv、tr、uk、zh
庫名稱	transformers
許可證	MIT
評估指標	bleu
任務類型	音頻文本轉文本

📚 詳細文檔

✨ 模型描述

Ultravox是一個多模態模型，它可以同時接受語音和文本作為輸入（例如，文本系統提示和語音用戶消息）。模型的輸入是帶有特殊<|audio|>偽令牌的文本提示，模型處理器會用從輸入音頻中提取的嵌入替換這個特殊令牌。然後，模型將使用合併後的嵌入作為輸入，像往常一樣生成輸出文本。

在未來的版本中，我們計劃擴展令牌詞彙表，以支持生成語義和聲學音頻令牌，這些令牌可以被輸入到聲碼器中以產生語音輸出。此版本的模型尚未進行偏好調整。

開發者：Fixie.ai
許可證：MIT

🌐 模型來源

倉庫地址：https://ultravox.ai
演示地址：見倉庫

💻 使用示例

基礎用法

可以將該模型視為一個還能“聽”和理解語音的大語言模型。因此，它可以用作語音代理，也可用於語音到語音的翻譯、語音音頻分析等。

要使用該模型，可以嘗試以下代碼：

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)