Qwen2-Audio-7B開源大音頻模型 - 支持語音聊天與音頻分析交互

首頁

Qwen2 Audio 7B

由Qwen開發

Qwen2-Audio是通義千問大音頻語言模型系列，支持語音聊天和音頻分析兩種交互模式。

音頻生成文本

Transformers

英語開源協議:Apache-2.0 #多模態音頻理解 #語音交互 #音頻指令執行

下載量 28.26k

發布時間 : 7/16/2024

模型概述

Qwen2-Audio能夠接收多種音頻信號輸入，並根據語音指令執行音頻分析或直接生成文本響應。

模型特點

多模態音頻交互

支持語音聊天和音頻分析兩種獨特的交互模式

端到端音頻理解

能夠直接處理音頻輸入並生成文本響應

大規模預訓練

基於7B參數規模的大音頻語言模型

模型能力

音頻理解

文本生成

語音交互

音頻分析

使用案例

智能語音助手

語音聊天

用戶無需文本輸入即可與模型進行自由語音交互

實現自然流暢的語音對話體驗

音頻內容分析

音頻描述生成

根據音頻內容自動生成描述性文本

準確描述音頻內容

🚀 Qwen2-Audio-7B

Qwen2-Audio是全新系列的通義大音頻語言模型。它能夠接收各種音頻信號輸入，並針對語音指令進行音頻分析或直接給出文本回復。本項目提供了兩種不同的音頻交互模式，為用戶帶來多樣化的使用體驗。

🚀 快速開始

環境要求

Qwen2-Audio的代碼已集成在最新的Hugging face transformers中。建議你使用以下命令從源代碼進行構建，否則可能會遇到 KeyError: 'qwen2-audio' 錯誤：

pip install git+https://github.com/huggingface/transformers

代碼示例

以下代碼展示瞭如何加載處理器和模型，並執行預訓練的Qwen2-Audio基礎模型進行內容生成：

from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)

prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/glass-breaking-151256.mp3"
audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate)
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

generated_ids = model.generate(**inputs, max_length=256)
generated_ids = generated_ids[:, inputs.input_ids.size(1):]
response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

✨ 主要特性

語音聊天：用戶無需輸入文本，即可與Qwen2-Audio進行自由的語音交互。
音頻分析：用戶在交互過程中可提供音頻和文本指令，進行音頻分析。

本項目發佈了Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct，分別為預訓練模型和聊天模型。

更多詳細信息，請參考博客、GitHub和報告。

📄 許可證

本項目採用Apache-2.0許可證。

📚 詳細文檔

引用信息

如果您覺得我們的工作有幫助，請引用以下文獻：

@article{Qwen2-Audio,
  title={Qwen2-Audio Technical Report},
  author={Chu, Yunfei and Xu, Jin and Yang, Qian and Wei, Haojie and Wei, Xipin and Guo,  Zhifang and Leng, Yichong and Lv, Yuanjun and He, Jinzheng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2407.10759},
  year={2024}
}

@article{Qwen-Audio,
  title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
  author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie  and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2311.07919},
  year={2023}
}