Ultravox-v0_4_1-llama-3_1-70b開源模型 - 支持語音與文本輸入的多模態語音助手

首頁

Ultravox V0 4 1 Llama 3 1 70b

由fixie-ai開發

Ultravox 是一個多模態語音大語言模型，基於預訓練的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主幹構建，能夠同時接收語音和文本作為輸入。

文本生成音頻

Transformers

支持多種語言開源協議:MIT #多模態語音理解 #多語言語音翻譯 #低延遲語音交互

下載量 204

發布時間 : 11/5/2024

模型概述

Ultravox 是一個多模態模型，可以同時接收語音和文本作為輸入（例如，文本系統提示和語音用戶消息）。模型的輸入是一個包含特殊偽標記的文本提示，模型處理器會將該標記替換為輸入音頻的嵌入表示。

模型特點

多模態輸入

可以同時接收語音和文本作為輸入，處理包含音頻嵌入的文本提示。

多語言支持

支持包括中文、英語、西班牙語等15種語言的語音和文本處理。

知識蒸餾訓練

通過知識蒸餾進行監督式語音指令微調，匹配基於文本的 Llama 主幹的邏輯輸出。

模型能力

語音識別

文本生成

多語言翻譯

語音音頻分析

使用案例

語音代理

語音助手

作為語音代理使用，回答用戶問題。

語音翻譯

語音到語音翻譯

支持多種語言之間的語音翻譯。

在英語-阿拉伯語翻譯中達到19.64 BLEU分數

🚀 Ultravox模型介紹

Ultravox是一個多模態語音大語言模型，它結合了預訓練的[Llama3.1 - 70B - Instruct](https://huggingface.co/meta - llama/Llama - 3.1 - 70B - Instruct)和[whisper - large - v3 - turbo](https://huggingface.co/openai/whisper - large - v3 - turbo)主幹架構，能夠同時處理語音和文本輸入，為語音交互和處理提供了強大的支持。

支持語言

該模型支持以下語言：阿拉伯語、德語、英語、西班牙語、法語、印地語、意大利語、日語、荷蘭語、葡萄牙語、俄語、瑞典語、土耳其語、烏克蘭語、中文。

許可證

本模型採用MIT許可證。

依賴庫

主要使用了transformers庫。

訓練數據集

fixie - ai/librispeech_asr
fixie - ai/common_voice_17_0
fixie - ai/peoples_speech
fixie - ai/gigaspeech
fixie - ai/multilingual_librispeech
fixie - ai/wenetspeech
fixie - ai/covost2

評估指標

使用BLEU指標進行評估。

模型類型

屬於音頻文本到文本的處理模型。

🚀 快速開始

模型概述

Ultravox是一個多模態模型，它可以同時接受語音和文本作為輸入（例如，一個文本系統提示和一個語音用戶消息）。模型的輸入是一個帶有特殊<|audio|>偽標記的文本提示，模型處理器會用從輸入音頻中提取的嵌入替換這個特殊標記。然後，模型將使用合併後的嵌入作為輸入，像普通的大語言模型一樣生成輸出文本。

在未來的版本中，我們計劃擴展模型的詞表，以支持生成語義和聲學音頻標記，這些標記可以被送入聲碼器以產生語音輸出。目前這個版本的模型尚未進行偏好調整。

模型信息

屬性	詳情
開發團隊	Fixie.ai
許可證	MIT
模型倉庫	https://ultravox.ai
演示地址	見倉庫

💻 使用示例

基礎用法

可以將該模型看作一個能夠“聽”和理解語音的大語言模型。因此，它可以用作語音代理，也可以進行語音到語音的翻譯、語音音頻分析等。

要使用該模型，可以嘗試以下代碼：

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-70b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

🔧 技術細節

模型架構

該模型使用了預訓練的[Llama3.1 - 70B - Instruct](https://huggingface.co/meta - llama/Llama - 3.1 - 70B - Instruct)主幹架構以及[whisper - large - v3 - turbo](https://huggingface.co/openai/whisper - large - v3 - turbo)的編碼器部分。在訓練過程中，僅對多模態適配器進行訓練，而Whisper編碼器和Llama保持凍結狀態。

訓練數據

訓練數據集是自動語音識別（ASR）數據集和語音翻譯數據集的混合。其中，ASR數據集通過Llama 3.1 8B生成的延續內容進行了擴展，這在翻譯評估中帶來了一定的提升。

訓練過程

通過知識蒸餾進行有監督的語音指令微調。更多詳細信息，請參閱[Ultravox倉庫中的訓練代碼](https://github.com/fixie - ai/ultravox/blob/main/ultravox/training/train.py)。

訓練超參數

訓練模式：BF16混合精度訓練
硬件使用：8個H100 GPU

速度、大小和時間

當前版本的Ultravox在處理音頻內容時，使用A100 - 40GB GPU和Llama 3.1 8B主幹架構，首次生成標記的時間（TTFT）約為150毫秒，每秒生成標記的速率約為50 - 100。

你可以在TheFastest.ai的音頻頁面查看每日基準測試以及與其他現有模型的比較。

📚 詳細文檔

評估結果

	Ultravox 0.4 70B	Ultravox 0.4.1 70B
英語到阿拉伯語 (en_ar)	14.97	19.64
英語到德語 (en_de)	30.30	32.47
西班牙語到英語 (es_en)	39.55	40.76
俄語到英語 (ru_en)	44.16	45.07
英語到加泰羅尼亞語 (en_ca)	35.02	37.58
中文到英語 (zh_en)	12.16	17.98