🚀 Ultravox模型卡片
Ultravox是一個多模態語音大語言模型(LLM),它基於預訓練的[Llama3 - 8B - Instruct](https://huggingface.co/meta - llama/Meta - Llama - 3 - 8B)和[Whisper - small](https://huggingface.co/openai/whisper - small)骨幹架構構建。查看https://ultravox.ai 可獲取GitHub倉庫和更多信息。
🚀 快速開始
Ultravox可作為一個能“聽”且能理解語音的大語言模型使用。因此,它可以用作語音代理,還能進行語音到語音的翻譯、語音音頻分析等。
要使用該模型,可嘗試以下代碼:
import transformers
import numpy as np
import librosa
pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_2', trust_remote_code=True)
path = "<path-to-input-audio>"
audio, sr = librosa.load(path, sr=16000)
turns = [
{
"role": "system",
"content": "You are a friendly and helpful character. You love to answer questions for people."
},
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)
✨ 主要特性
- 多模態輸入:可以同時處理語音和文本輸入,例如文本系統提示和語音用戶消息。
- 未來拓展:計劃在未來版本中擴展詞表,以支持生成語義和聲學音頻標記,進而生成語音輸出。
📦 安裝指南
pip install transformers peft librosa
💻 使用示例
基礎用法
import transformers
import numpy as np
import librosa
pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_2', trust_remote_code=True)
path = "<path-to-input-audio>"
audio, sr = librosa.load(path, sr=16000)
turns = [
{
"role": "system",
"content": "You are a friendly and helpful character. You love to answer questions for people."
},
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)
高級用法
目前文檔未提供高級用法相關內容。
📚 詳細文檔
模型詳情
模型描述
Ultravox是一個多模態模型,它可以同時接受語音和文本作為輸入(例如,文本系統提示和語音用戶消息)。模型的輸入是一個帶有特殊 <|audio|>
偽標記的文本提示,模型處理器會用從輸入音頻中提取的嵌入向量替換這個特殊標記。以合併後的嵌入向量作為輸入,模型將像往常一樣生成輸出文本。
在Ultravox的未來版本中,我們計劃擴展詞表,以支持生成語義和聲學音頻標記,然後將這些標記輸入聲碼器以產生語音輸出。此版本的模型尚未進行偏好調整。
屬性 |
詳情 |
開發者 |
Fixie.ai |
許可證 |
MIT |
模型倉庫 |
https://ultravox.ai |
演示地址 |
見倉庫 |
訓練詳情
訓練數據
訓練數據集是自動語音識別(ASR)數據集(Gigaspeech)、指令遵循和問答數據(AnyInstruct和BoolQ的擴展版本)以及對話數據(SODA,最後兩輪有替代生成)的混合。
訓練過程
- 第一階段:先訓練多模態投影器,同時凍結骨幹模型。
- 第二階段:使用低秩自適應(LoRA)對Llama3進行微調。
訓練超參數
- 訓練模式:BF16混合精度訓練
- 使用硬件:8塊A100 - 40GB GPU
- 大語言模型LoRA秩:64
速度、大小和時間
當前版本的Ultravox在處理音頻內容時,使用Llama 3 8B骨幹架構和A100 - 40GB GPU,首次生成標記的時間(TTFT)約為200ms,每秒生成標記的速率約為50 - 100。
查看TheFastest.ai的音頻標籤頁,可獲取每日基準測試數據並與其他現有模型進行比較。
評估
目前文檔中測試數據、影響因素、評估指標及結果部分均未提供足夠信息。
📄 許可證
本模型使用的許可證為MIT許可證。