Ultravox-v0_6-llama-3_3-70b開源多模態語音模型

Home

Ultravox V0 6 Llama 3 3 70b

Developed by fixie-ai

Ultravox是一個多模態語音大語言模型，結合了預訓練大語言模型和語音編碼器，能夠處理語音和文本輸入。

文本生成音頻

Transformers

Supports Multiple LanguagesOpen Source License:MIT #多模態語音理解 #噪聲魯棒處理 #印地語優化

Downloads 196

Release Time : 5/27/2025

Model Overview

Ultravox是一個能夠聆聽和理解語音的大語言模型，可用於語音代理、語音到語音翻譯、語音音頻分析等任務。

Model Features

多模態輸入

可以同時處理語音和文本輸入，支持語音和文本的混合交互。

印地語優化

在擴展的印地語語音數據上進行訓練，顯著提高了印地語的語音理解性能。

噪聲魯棒性

在噪聲數據集上訓練，能夠更好地處理嘈雜音頻，並在無法識別時輸出特殊標記。

未來語音輸出

計劃擴展詞表以支持生成語義和聲學音頻令牌，實現語音輸出功能。

Model Capabilities

語音理解

語音翻譯

語音音頻分析

噪聲檢測

多語言支持

Use Cases

語音交互

語音代理

作為能夠理解語音輸入的智能代理，進行自然語言交互。

語音翻譯

多語言語音翻譯

將一種語言的語音翻譯成另一種語言的文本輸出。

在covost2數據集上取得12.94-42.41 BLEU分數

音頻分析

噪聲檢測

檢測輸入音頻是否包含有效語音或僅為噪聲。

在musan_noise數據集上達到97.45%召回率

🚀 Ultravox模型卡

Ultravox是一個多模態語音大語言模型，它圍繞預訓練大語言模型（如Llama、Gemma、Qwen等）和語音編碼器（whisper-large-v3-turbo）構建而成。

請訪問https://ultravox.ai 查看GitHub倉庫和更多信息。

🚀 快速開始

將該模型視為一個能夠聆聽和理解語音的大語言模型。因此，它可以用作語音代理，也可用於語音到語音的翻譯、語音音頻分析等。

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_6-llama-3_1-8b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

✨ 主要特性

多模態輸入：可以同時處理語音和文本輸入。
語音理解性能優化：在v0.6系列中，在擴展的印地語語音數據上進行訓練，顯著提高了印地語的語音理解性能。
噪聲魯棒性增強：在噪聲數據集上進行訓練，能夠更好地處理嘈雜音頻，並在輸入音頻太嘈雜或不包含清晰語音時輸出特殊字符串((noise))。
未來規劃：計劃擴展詞表，支持生成語義和聲學音頻令牌，以實現語音輸出。

📦 安裝指南

文檔未提及安裝步驟，故跳過。

💻 使用示例

基礎用法

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_6-llama-3_1-8b', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

高級用法

文檔未提及高級用法代碼示例，故跳過。

📚 詳細文檔

模型詳情

模型描述

Ultravox是一個多模態模型，它可以同時將語音和文本作為輸入（例如，文本系統提示和語音用戶消息）。模型的輸入是一個帶有特殊<|audio|>偽令牌的文本提示，模型處理器會用從輸入音頻中提取的嵌入替換這個神奇的令牌。以合併後的嵌入作為輸入，模型將像往常一樣生成輸出文本。

在v0.6系列中，Ultravox模型在擴展的印地語語音數據上進行訓練，這使得印地語的語音理解性能顯著提高，但其他語言的性能有輕微下降。此外，v0.6模型還在噪聲數據集上進行訓練，以提高噪聲魯棒性，並在輸入音頻太嘈雜或不包含清晰語音時能夠輸出特殊字符串((noise))。

在Ultravox的未來版本中，我們計劃擴展詞表，以支持生成語義和聲學音頻令牌，然後將其輸入到聲碼器中以產生語音輸出。此版本的模型未應用偏好調整。

開發者： Fixie.ai
許可證： MIT

模型來源

倉庫： https://ultravox.ai
演示： 請查看倉庫

使用說明

將該模型視為一個能夠聆聽和理解語音的大語言模型。因此，它可以用作語音代理，也可用於語音到語音的翻譯、語音音頻分析等。

訓練詳情

模型架構

該模型使用預訓練的大語言模型（如Llama、Gemma、Qwen等）作為主幹，並結合whisper-large-v3-turbo的編碼器部分。多模態適配器進行訓練，Whisper編碼器進行微調，而大語言模型保持凍結。

訓練數據

訓練數據集是自動語音識別（ASR）數據集、由Llama 3.1 8B生成的延續數據、語音翻譯數據集和噪聲數據集的混合。

訓練過程

通過知識蒸餾進行有監督的語音指令微調。更多信息，請參閱Ultravox倉庫中的訓練代碼。

訓練超參數

訓練機制： BF16混合精度訓練
使用的硬件： 8x H100 GPU

速度、大小和時間

當前版本的Ultravox在處理音頻內容時，使用基於文本的大語言模型（Llama、Gemma或Qwen）作為主幹，在A100 - 40GB GPU上的首次令牌生成時間（TTFT）約為150ms，每秒生成的令牌速率約為50 - 100。

請查看TheFastest.ai的音頻標籤，瞭解每日基準測試和與其他現有模型的比較。

評估

評估在covost2（語音翻譯，以BLEU衡量）、fleurs和ultravox_calls（語音識別，以WER衡量）、big bench audio（音頻推理，以準確率衡量）以及musan和ultravox_unintelligible（噪聲/難以理解的語音檢測，以召回率衡量）上進行。

	v0_5-llama-3_1-8b	v0_6-llama-3_1-8b	v0_5-llama-3_3-70b	v0_6-llama-3_3-70b	v0_6-gemma-3-27b	v0_6-qwen-3-32b
covost2 en_ar	12.90	12.94	20.21	18.92	22.68	16.91
covost2 en_ca	31.51	31.47	40.01	38.73	39.67	33.63
covost2 en_de	28.60	28.66	34.53	33.69	34.76	31.09
covost2 es_en	40.41	40.36	43.29	41.39	41.11	41.20
covost2 ru_en	42.22	42.41	48.99	43.73	49.29	47.08
covost2 zh_en	16.97	17.24	21.37	17.81	20.88	22.24
librispeech	2.04	2.09	2.09	2.55	2.73	2.88
fleurs cmn_hans_cn	12.11	12.25	11.20	13.49	12.56	12.10
fleurs de_de	6.66	7.56	5.26	7.14	4.86	6.83
fleurs es_419	5.74	5.83	4.53	6.06	4.68	5.14
fleurs hi_in	29.74	10.34	18.90	11.43	8.40	11.78
ultravox_calls (asr)	22.31	20.01	19.56	16.51	19.56	28.67
big bench audio	68.06	69.70	90.15	85.48	83.84	84.22
musan_noise	0.00	97.45	0.00	98.51	99.58	99.78
ultravox_unintelligible	0.00	45.78	0.00	50.00	66.84	64.21

🔧 技術細節

文檔未提及技術實現細節，故跳過。

📄 許可證

本模型採用MIT許可證。

屬性	詳情
支持語言	ar、be、bg、bn、cs、cy、da、de、el、en、es、et、fa、fi、fr、gl、hi、hu、it、ja、ka、lt、lv、mk、mr、nl、pl、pt、ro、ru、sk、sl、sr、sv、sw、ta、th、tr、uk、ur、vi、zh
許可證	MIT
庫名稱	transformers
評估指標	BLEU
任務類型	音頻文本到文本