🚀 Qwen-Audio-nf4
Qwen-Audio-nf4 是 Qwen-Audio 的量化版本。该模型由阿里云研发,可接受多种音频(包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出,在多种基准任务中表现出色。
✨ 主要特性
基础音频模型
Qwen-Audio 是一个基础的多任务音频语言模型,支持各种任务、语言和音频类型,可作为通用的音频理解模型。在此基础上,通过指令微调开发了 Qwen-Audio-Chat,实现多轮对话,支持多种音频场景。
全类型音频的多任务学习框架
为了扩展音频语言预训练,提出了多任务训练框架,解决不同数据集文本标签变化的挑战,实现知识共享,避免一对多干扰。模型包含 30 多个任务,大量实验表明该模型性能强劲。
出色性能
实验结果显示,Qwen-Audio 在各种基准任务中无需特定任务微调即可取得优异成绩,超越同类模型。具体而言,在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 测试集上达到了当前最优结果。
灵活的多轮音频和文本输入对话
Qwen-Audio 支持多音频分析、声音理解和推理、音乐欣赏以及语音编辑工具的使用。
📦 安装指南
在使用 Qwen-Audio 之前,请确保满足以下环境要求,并安装所需的依赖库:
- Python 3.8 及以上版本
- PyTorch 1.12 及以上版本,推荐 2.0 及以上版本
- 推荐使用 CUDA 11.4 及以上版本(适用于 GPU 用户)
- FFmpeg
安装依赖库的命令如下:
pip install -r requirements.txt
更多详细信息,请参考 教程。
💻 使用示例
基础用法
以下是使用 🤗 Transformers 库调用 Qwen-Audio 进行推理的示例代码:
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import torch
torch.manual_seed(1234)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cuda", trust_remote_code=True).eval()
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac"
sp_prompt = "<|startoftranscript|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>"
query = f"<audio>{audio_url}</audio>{sp_prompt}"
audio_info = tokenizer.process_audio(query)
inputs = tokenizer(query, return_tensors='pt', audio_info=audio_info)
inputs = inputs.to(model.device)
pred = model.generate(**inputs, audio_info=audio_info)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False,audio_info=audio_info)
print(response)
注意事项
- 请确保使用的是最新代码。
- 在运行代码前,请确保已正确设置环境并安装所需的依赖库。
📄 许可证
研究人员和开发者可以自由使用 Qwen-Audio 的代码和模型权重,也允许进行商业使用。更多详细的许可信息,请查看 LICENSE。
📚 详细文档
如需了解更多关于 Qwen-Audio 的详细信息,请访问 Github 仓库。
📚 引用
如果您在研究中使用了我们的论文和代码,请考虑给我们一个 Star 并进行引用:
@article{Qwen-Audio,
title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2311.07919},
year={2023}
}
📞 联系我们
如果您想向我们的研究团队或产品团队留言,请随时发送电子邮件至 qianwen_opensource@alibabacloud.com。