开源Ultravox-v0_2多模态语音模型 - 支持语音与文本输入处理

首页

Ultravox V0 2

由 fixie-ai 开发

Ultravox 是一个基于 Llama3-8B-Instruct 和 Whisper-small 构建的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers

英语开源协议:MIT #语音文本多模态 #实时语音交互 #指令跟随对话

下载量 792

发布时间 : 6/7/2024

模型简介

Ultravox 是一个多模态模型，能够接收语音和文本输入（例如系统文本提示和用户语音消息），并生成文本输出。适用于语音代理、语音转语音翻译、语音分析等场景。

模型特点

多模态输入

能够同时接收语音和文本输入，通过特殊伪标记 <|audio|> 处理音频嵌入。

语音理解

具备听觉和理解语音的能力，适用于语音代理和语音分析等场景。

未来扩展

计划支持生成语义和声学音频标记，用于语音输出。

模型能力

语音识别

文本生成

多模态输入处理

语音代理

语音转语音翻译

语音分析

使用案例

语音代理

语音助手

作为语音助手，回答用户的问题并提供帮助。

语音翻译

语音转语音翻译

将一种语言的语音输入转换为另一种语言的语音输出。

语音分析

语音内容分析

分析语音内容，提取关键信息或情感。

🚀 Ultravox模型卡片

Ultravox是一个多模态语音大语言模型（LLM），它基于预训练的[Llama3 - 8B - Instruct](https://huggingface.co/meta - llama/Meta - Llama - 3 - 8B)和[Whisper - small](https://huggingface.co/openai/whisper - small)骨干架构构建。查看https://ultravox.ai 可获取GitHub仓库和更多信息。

🚀 快速开始

Ultravox可作为一个能“听”且能理解语音的大语言模型使用。因此，它可以用作语音代理，还能进行语音到语音的翻译、语音音频分析等。

要使用该模型，可尝试以下代码：

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_2', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)

✨ 主要特性

多模态输入：可以同时处理语音和文本输入，例如文本系统提示和语音用户消息。
未来拓展：计划在未来版本中扩展词表，以支持生成语义和声学音频标记，进而生成语音输出。

📦 安装指南

pip install transformers peft librosa

💻 使用示例

基础用法

# pip install transformers peft librosa

import transformers
import numpy as np
import librosa

pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_2', trust_remote_code=True)

path = "<path-to-input-audio>"  # TODO: pass the audio here
audio, sr = librosa.load(path, sr=16000)


turns = [
  {
    "role": "system",
    "content": "You are a friendly and helpful character. You love to answer questions for people."
  },
]
pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)