🚀 Qwen2-Audio-7B
Qwen2-Audioは、Qwenの新シリーズの大規模オーディオ言語モデルです。Qwen2-Audioは、様々なオーディオ信号入力を受け取り、音声命令に関するオーディオ分析または直接のテキスト応答を行うことができます。2つの異なるオーディオインタラクションモードを導入しています。
- 音声チャット:ユーザーはテキスト入力なしでQwen2-Audioと自由に音声でやり取りできます。
- オーディオ分析:ユーザーはインタラクション中に分析用のオーディオとテキスト命令を提供できます。
それぞれ事前学習モデルとチャットモデルであるQwen2-Audio-7BとQwen2-Audio-7B-Instructをリリースしています。
詳細については、ブログ、GitHub、およびレポートを参照してください。
🚀 クイックスタート
ここでは、プロセッサとモデルの両方をロードするプロセスを示すコードスニペットを提供し、事前学習済みのQwen2-Audioベースモデルを使用してコンテンツを生成する詳細な手順を説明します。
from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/glass-breaking-151256.mp3"
audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate)
inputs = processor(text=prompt, audios=audio, return_tensors="pt")
generated_ids = model.generate(**inputs, max_length=256)
generated_ids = generated_ids[:, inputs.input_ids.size(1):]
response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
✨ 主な機能
Qwen2-Audioは、新シリーズのQwen大規模オーディオ言語モデルで、様々なオーディオ信号入力を受け取り、音声命令に対するオーディオ分析やテキスト応答が可能です。また、音声チャットとオーディオ分析の2つのインタラクションモードを備えています。
📦 インストール
Qwen2-Audioのコードは最新のHugging face transformersに含まれています。ソースからビルドすることをお勧めします。以下のコマンドを使用してインストールできます。
pip install git+https://github.com/huggingface/transformers
これを行わないと、以下のエラーが発生する可能性があります。
KeyError: 'qwen2-audio'
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で提供されています。
📚 ドキュメント
引用
もし私たちの研究が役に立った場合は、引用していただけると幸いです。
@article{Qwen2-Audio,
title={Qwen2-Audio Technical Report},
author={Chu, Yunfei and Xu, Jin and Yang, Qian and Wei, Haojie and Wei, Xipin and Guo, Zhifang and Leng, Yichong and Lv, Yuanjun and He, Jinzheng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2407.10759},
year={2024}
}
@article{Qwen-Audio,
title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2311.07919},
year={2023}
}