Qwen2 - Audio - 7Bオープンソース大規模オーディオモデル - 音声チャットとオーディオ分析インタラクションをサポート

ホーム

Qwen2 Audio 7B

Qwenによって開発

Qwen2-Audioは通義千問の大規模音声言語モデルシリーズで、音声チャットと音声分析の2つのインタラクションモードをサポートしています。

音声生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチモーダル音声理解 #音声インタラクション #音声コマンド実行

ダウンロード数 28.26k

リリース時間 : 7/16/2024

モデル概要

Qwen2-Audioは様々な音声信号入力を処理し、音声コマンドに基づいて音声分析を実行したり、直接テキスト応答を生成したりできます。

モデル特徴

マルチモーダル音声インタラクション

音声チャットと音声分析という2つのユニークなインタラクションモードをサポート

エンドツーエンド音声理解

音声入力を直接処理してテキスト応答を生成可能

大規模事前学習

7Bパラメータ規模の大規模音声言語モデルに基づく

モデル能力

音声理解

テキスト生成

音声インタラクション

音声分析

使用事例

スマート音声アシスタント

音声チャット

ユーザーはテキスト入力なしでモデルと自由に音声対話可能

自然で流暢な音声対話体験を実現

音声コンテンツ分析

音声記述生成

音声コンテンツに基づいて自動的に記述テキストを生成

音声コンテンツを正確に記述

🚀 Qwen2-Audio-7B

Qwen2-Audioは、Qwenの新シリーズの大規模オーディオ言語モデルです。Qwen2-Audioは、様々なオーディオ信号入力を受け取り、音声命令に関するオーディオ分析または直接のテキスト応答を行うことができます。2つの異なるオーディオインタラクションモードを導入しています。

音声チャット：ユーザーはテキスト入力なしでQwen2-Audioと自由に音声でやり取りできます。
オーディオ分析：ユーザーはインタラクション中に分析用のオーディオとテキスト命令を提供できます。

それぞれ事前学習モデルとチャットモデルであるQwen2-Audio-7BとQwen2-Audio-7B-Instructをリリースしています。

詳細については、ブログ、GitHub、およびレポートを参照してください。

🚀 クイックスタート

ここでは、プロセッサとモデルの両方をロードするプロセスを示すコードスニペットを提供し、事前学習済みのQwen2-Audioベースモデルを使用してコンテンツを生成する詳細な手順を説明します。

from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B" ,trust_remote_code=True)

prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/glass-breaking-151256.mp3"
audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate)
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

generated_ids = model.generate(**inputs, max_length=256)
generated_ids = generated_ids[:, inputs.input_ids.size(1):]
response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

✨ 主な機能

Qwen2-Audioは、新シリーズのQwen大規模オーディオ言語モデルで、様々なオーディオ信号入力を受け取り、音声命令に対するオーディオ分析やテキスト応答が可能です。また、音声チャットとオーディオ分析の2つのインタラクションモードを備えています。

📦 インストール

Qwen2-Audioのコードは最新のHugging face transformersに含まれています。ソースからビルドすることをお勧めします。以下のコマンドを使用してインストールできます。

pip install git+https://github.com/huggingface/transformers

これを行わないと、以下のエラーが発生する可能性があります。

KeyError: 'qwen2-audio'

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で提供されています。

📚 ドキュメント

引用

もし私たちの研究が役に立った場合は、引用していただけると幸いです。

@article{Qwen2-Audio,
  title={Qwen2-Audio Technical Report},
  author={Chu, Yunfei and Xu, Jin and Yang, Qian and Wei, Haojie and Wei, Xipin and Guo,  Zhifang and Leng, Yichong and Lv, Yuanjun and He, Jinzheng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2407.10759},
  year={2024}
}

@article{Qwen-Audio,
  title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
  author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie  and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2311.07919},
  year={2023}
}