🚀 Qwen-Audio-nf4
Qwen-Audio-nf4 是 Qwen-Audio 的量化版本。該模型由阿里雲研發,可接受多種音頻(包括說話人語音、自然音、音樂、歌聲)和文本作為輸入,並以文本作為輸出,在多種基準任務中表現出色。
✨ 主要特性
基礎音頻模型
Qwen-Audio 是一個基礎的多任務音頻語言模型,支持各種任務、語言和音頻類型,可作為通用的音頻理解模型。在此基礎上,通過指令微調開發了 Qwen-Audio-Chat,實現多輪對話,支持多種音頻場景。
全類型音頻的多任務學習框架
為了擴展音頻語言預訓練,提出了多任務訓練框架,解決不同數據集文本標籤變化的挑戰,實現知識共享,避免一對多幹擾。模型包含 30 多個任務,大量實驗表明該模型性能強勁。
出色性能
實驗結果顯示,Qwen-Audio 在各種基準任務中無需特定任務微調即可取得優異成績,超越同類模型。具體而言,在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 測試集上達到了當前最優結果。
靈活的多輪音頻和文本輸入對話
Qwen-Audio 支持多音頻分析、聲音理解和推理、音樂欣賞以及語音編輯工具的使用。
📦 安裝指南
在使用 Qwen-Audio 之前,請確保滿足以下環境要求,並安裝所需的依賴庫:
- Python 3.8 及以上版本
- PyTorch 1.12 及以上版本,推薦 2.0 及以上版本
- 推薦使用 CUDA 11.4 及以上版本(適用於 GPU 用戶)
- FFmpeg
安裝依賴庫的命令如下:
pip install -r requirements.txt
更多詳細信息,請參考 教程。
💻 使用示例
基礎用法
以下是使用 🤗 Transformers 庫調用 Qwen-Audio 進行推理的示例代碼:
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import torch
torch.manual_seed(1234)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cuda", trust_remote_code=True).eval()
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac"
sp_prompt = "<|startoftranscript|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>"
query = f"<audio>{audio_url}</audio>{sp_prompt}"
audio_info = tokenizer.process_audio(query)
inputs = tokenizer(query, return_tensors='pt', audio_info=audio_info)
inputs = inputs.to(model.device)
pred = model.generate(**inputs, audio_info=audio_info)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False,audio_info=audio_info)
print(response)
注意事項
- 請確保使用的是最新代碼。
- 在運行代碼前,請確保已正確設置環境並安裝所需的依賴庫。
📄 許可證
研究人員和開發者可以自由使用 Qwen-Audio 的代碼和模型權重,也允許進行商業使用。更多詳細的許可信息,請查看 LICENSE。
📚 詳細文檔
如需瞭解更多關於 Qwen-Audio 的詳細信息,請訪問 Github 倉庫。
📚 引用
如果您在研究中使用了我們的論文和代碼,請考慮給我們一個 Star 並進行引用:
@article{Qwen-Audio,
title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2311.07919},
year={2023}
}
📞 聯繫我們
如果您想向我們的研究團隊或產品團隊留言,請隨時發送電子郵件至 qianwen_opensource@alibabacloud.com。