🚀 Qwen-Audio-nf4
これはQwen-Audioの量子化バージョンです。
🚀 クイックスタート
概要
Qwen-Audio(Qwen Large Audio Language Model)は、アリババクラウドによって提案された大規模モデルシリーズQwen(略称:通義千問)のマルチモーダルバージョンです。Qwen-Audioは、多様なオーディオ(人の声、自然音、音楽、歌)とテキストを入力として受け取り、テキストを出力します。
モデルの特徴
- 基礎的なオーディオモデル:Qwen-Audioは、様々なタスク、言語、オーディオタイプをサポートする基礎的なマルチタスクオーディオ言語モデルであり、普遍的なオーディオ理解モデルとして機能します。Qwen-Audioをベースに、命令微調整によってQwen-Audio-Chatを開発し、マルチターン対話を可能にし、多様なオーディオ指向のシナリオをサポートしています。
- 全てのタイプのオーディオに対するマルチタスク学習フレームワーク:オーディオ言語の事前学習を拡大するために、異なるデータセットに関連するテキストラベルの変動という課題に対処するため、マルチタスク学習フレームワークを提案しています。これにより、知識共有を可能にし、1対多の干渉を回避しています。当社のモデルは30以上のタスクを組み込んでおり、広範な実験により、モデルが強力な性能を達成していることが示されています。
- 強力な性能:実験結果によると、Qwen-Audioは、特定のタスクに対する微調整を必要とせずに、多様なベンチマークタスクで印象的な性能を達成し、他のモデルを上回っています。具体的には、Qwen-AudioはAishell1、cochlscene、ClothoAQA、およびVocalSoundのテストセットで最先端の結果を達成しています。
- 柔軟なマルチランチャット(オーディオとテキスト入力):Qwen-Audioは、複数のオーディオ分析、音声理解と推論、音楽鑑賞、および音声編集のためのツール使用をサポートしています。
モデルの公開
当社は、事前学習モデルであるQwen-AudioとチャットモデルであるQwen-Audio-Chatを公開しています。Qwen-Audioの詳細については、Githubリポジトリを参照してください。このリポジトリはQwen-Audioのものです。
必要条件
- Python 3.8以上
- PyTorch 1.12以上、2.0以上が推奨
- CUDA 11.4以上が推奨(GPUユーザー向け)
- FFmpeg
クイックスタートの手順
以下に、🤗 Transformersを使用してQwen-Audioを使用する簡単な例を示します。
コードを実行する前に、環境を設定し、必要なパッケージをインストールしてください。上記の要件を満たしていることを確認し、次に依存ライブラリをインストールします。
pip install -r requirements.txt
詳細については、チュートリアルを参照してください。
🤗 Transformersを使用した推論
Qwen-Audioを推論に使用するには、以下に示すように数行のコードを入力するだけです。ただし、最新のコードを使用していることを確認してください。
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import torch
torch.manual_seed(1234)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cuda", trust_remote_code=True).eval()
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac"
sp_prompt = "<|startoftranscript|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>"
query = f"<audio>{audio_url}</audio>{sp_prompt}"
audio_info = tokenizer.process_audio(query)
inputs = tokenizer(query, return_tensors='pt', audio_info=audio_info)
inputs = inputs.to(model.device)
pred = model.generate(**inputs, audio_info=audio_info)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False,audio_info=audio_info)
print(response)
📄 ライセンス
研究者や開発者は、Qwen-Audioのコードとモデルの重みを自由に使用することができます。また、商用利用も許可されています。詳細については、ライセンスを確認してください。
引用
当社の論文とコードがあなたの研究に役立つ場合、スターを付けて引用することを検討してください。
@article{Qwen-Audio,
title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2311.07919},
year={2023}
}
お問い合わせ
当社の研究チームまたは製品チームにメッセージを残したい場合は、qianwen_opensource@alibabacloud.comにメールを送信してください。