Qwen-Audio-nf4开源音频模型 - 免费支持多种音频输入转文本输出

首页

Qwen Audio Nf4

由 Ostixe360 开发

Qwen-Audio-nf4是Qwen-Audio的量化版本，支持多种音频输入和文本输出

音频生成文本

Transformers

支持多种语言#多任务音频理解 #多语言音频处理 #音频文本交互

下载量 134

发布时间 : 4/25/2024

模型简介

Qwen-Audio-nf4是阿里云研发的大规模音频语言模型Qwen-Audio的量化版本，支持多种音频（包括说话人语音、自然音、音乐、歌声）和文本作为输入，并以文本作为输出。

模型特点

多类型音频支持

支持处理人声、自然声、音乐和歌曲等多种音频类型

多任务学习框架

采用多任务训练框架，支持超过30种不同的音频任务

无需微调

在多个基准任务上无需任务特定微调即可取得领先性能

多轮对话支持

支持多轮音频和文本对话，包括声音理解、音乐欣赏等场景

模型能力

音频转文本

多语言音频理解

音乐分析

声音推理

多轮音频-文本对话

语音工具使用

使用案例

语音识别

语音转录

将说话人语音转换为文本

在Aishell1测试集上达到SOTA

环境声音分析

自然声音识别

识别环境中的自然声音类型

在cochlscene测试集上达到SOTA

音乐理解

音乐描述生成

根据音乐生成描述性文本

在ClothoAQA测试集上达到SOTA

🚀 Qwen-Audio-nf4

Qwen-Audio-nf4 是 Qwen-Audio 的量化版本。该模型由阿里云研发，可接受多种音频（包括说话人语音、自然音、音乐、歌声）和文本作为输入，并以文本作为输出，在多种基准任务中表现出色。

✨ 主要特性

基础音频模型

Qwen-Audio 是一个基础的多任务音频语言模型，支持各种任务、语言和音频类型，可作为通用的音频理解模型。在此基础上，通过指令微调开发了 Qwen-Audio-Chat，实现多轮对话，支持多种音频场景。

全类型音频的多任务学习框架

为了扩展音频语言预训练，提出了多任务训练框架，解决不同数据集文本标签变化的挑战，实现知识共享，避免一对多干扰。模型包含 30 多个任务，大量实验表明该模型性能强劲。

出色性能

实验结果显示，Qwen-Audio 在各种基准任务中无需特定任务微调即可取得优异成绩，超越同类模型。具体而言，在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 测试集上达到了当前最优结果。

灵活的多轮音频和文本输入对话

Qwen-Audio 支持多音频分析、声音理解和推理、音乐欣赏以及语音编辑工具的使用。

📦 安装指南

在使用 Qwen-Audio 之前，请确保满足以下环境要求，并安装所需的依赖库：

Python 3.8 及以上版本
PyTorch 1.12 及以上版本，推荐 2.0 及以上版本
推荐使用 CUDA 11.4 及以上版本（适用于 GPU 用户）
FFmpeg

安装依赖库的命令如下：

pip install -r requirements.txt

更多详细信息，请参考教程。

💻 使用示例

基础用法

以下是使用 🤗 Transformers 库调用 Qwen-Audio 进行推理的示例代码：

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import torch
torch.manual_seed(1234)

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)

# 使用 bf16
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="auto", trust_remote_code=True, bf16=True).eval()
# 使用 fp16
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="auto", trust_remote_code=True, fp16=True).eval()
# 仅使用 CPU
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cpu", trust_remote_code=True).eval()
# 使用 CUDA 设备
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cuda", trust_remote_code=True).eval()

# 指定生成的超参数（如果使用 transformers>4.32.0，则无需执行此操作）
# model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac"
sp_prompt = "<|startoftranscript|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>"
query = f"<audio>{audio_url}</audio>{sp_prompt}"
audio_info = tokenizer.process_audio(query)
inputs = tokenizer(query, return_tensors='pt', audio_info=audio_info)
inputs = inputs.to(model.device)
pred = model.generate(**inputs, audio_info=audio_info)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False,audio_info=audio_info)
print(response)
# <audio>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac</audio><|startoftranscription|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>mister quilting is the apostle of the middle classes and we are glad to welcome his gospel<|endoftext|>

注意事项

请确保使用的是最新代码。
在运行代码前，请确保已正确设置环境并安装所需的依赖库。

📄 许可证

研究人员和开发者可以自由使用 Qwen-Audio 的代码和模型权重，也允许进行商业使用。更多详细的许可信息，请查看 LICENSE。

📚 详细文档

如需了解更多关于 Qwen-Audio 的详细信息，请访问 Github 仓库。

📚 引用

如果您在研究中使用了我们的论文和代码，请考虑给我们一个 Star 并进行引用：

@article{Qwen-Audio,
  title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
  author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie  and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2311.07919},
  year={2023}
}