🚀 Qwen2-Audio-7B
Qwen2-Audio是全新系列的通義大音頻語言模型。它能夠接收各種音頻信號輸入,並針對語音指令進行音頻分析或直接給出文本回復。本項目提供了兩種不同的音頻交互模式,為用戶帶來多樣化的使用體驗。
🚀 快速開始
環境要求
Qwen2-Audio的代碼已集成在最新的Hugging face transformers中。建議你使用以下命令從源代碼進行構建,否則可能會遇到 KeyError: 'qwen2-audio'
錯誤:
pip install git+https://github.com/huggingface/transformers
代碼示例
以下代碼展示瞭如何加載處理器和模型,並執行預訓練的Qwen2-Audio基礎模型進行內容生成:
from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/glass-breaking-151256.mp3"
audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate)
inputs = processor(text=prompt, audios=audio, return_tensors="pt")
generated_ids = model.generate(**inputs, max_length=256)
generated_ids = generated_ids[:, inputs.input_ids.size(1):]
response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
✨ 主要特性
- 語音聊天:用戶無需輸入文本,即可與Qwen2-Audio進行自由的語音交互。
- 音頻分析:用戶在交互過程中可提供音頻和文本指令,進行音頻分析。
本項目發佈了Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct,分別為預訓練模型和聊天模型。
更多詳細信息,請參考博客、GitHub和報告。
📄 許可證
本項目採用Apache-2.0許可證。
📚 詳細文檔
引用信息
如果您覺得我們的工作有幫助,請引用以下文獻:
@article{Qwen2-Audio,
title={Qwen2-Audio Technical Report},
author={Chu, Yunfei and Xu, Jin and Yang, Qian and Wei, Haojie and Wei, Xipin and Guo, Zhifang and Leng, Yichong and Lv, Yuanjun and He, Jinzheng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2407.10759},
year={2024}
}
@article{Qwen-Audio,
title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2311.07919},
year={2023}
}