Qwen-Audio-nf4オープンソースオーディオモデル - 複数のオーディオ入力をテキスト出力に変換する無料サポート

ホーム

Qwen Audio Nf4

Ostixe360によって開発

Qwen-Audio-nf4はQwen-Audioの量子化バージョンで、複数の音声入力とテキスト出力をサポートします

音声生成テキスト

Transformers

複数言語対応#マルチタスク音声理解 #多言語音声処理 #音声テキストインタラクション

ダウンロード数 134

リリース時間 : 4/25/2024

モデル概要

Qwen-Audio-nf4はアリクラウドが開発した大規模音声言語モデルQwen-Audioの量子化バージョンで、複数の音声（話者音声、自然音、音楽、歌声など）とテキストを入力として受け取り、テキストを出力します。

モデル特徴

多種音声サポート

人声、自然音、音楽、歌など多様な音声タイプの処理をサポート

マルチタスク学習フレームワーク

30種類以上の異なる音声タスクをサポートするマルチタスク訓練フレームワークを採用

微調整不要

複数のベンチマークタスクでタスク固有の微調整なしでリーディング性能を達成

マルチターン対話サポート

音声理解、音楽鑑賞などのシナリオを含むマルチターン音声とテキストの対話をサポート

モデル能力

音声からテキストへの変換

多言語音声理解

音楽分析

音声推論

マルチターン音声-テキスト対話

音声ツール使用

使用事例

音声認識

音声文字起こし

話者音声をテキストに変換

Aishell1テストセットでSOTAを達成

環境音分析

自然音認識

環境中の自然音タイプを識別

cochlsceneテストセットでSOTAを達成

音楽理解

音楽記述生成

音楽に基づいて記述テキストを生成

ClothoAQAテストセットでSOTAを達成

🚀 Qwen-Audio-nf4

これはQwen-Audioの量子化バージョンです。

🚀 クイックスタート

概要

Qwen-Audio（Qwen Large Audio Language Model）は、アリババクラウドによって提案された大規模モデルシリーズQwen（略称：通義千問）のマルチモーダルバージョンです。Qwen-Audioは、多様なオーディオ（人の声、自然音、音楽、歌）とテキストを入力として受け取り、テキストを出力します。

モデルの特徴

基礎的なオーディオモデル：Qwen-Audioは、様々なタスク、言語、オーディオタイプをサポートする基礎的なマルチタスクオーディオ言語モデルであり、普遍的なオーディオ理解モデルとして機能します。Qwen-Audioをベースに、命令微調整によってQwen-Audio-Chatを開発し、マルチターン対話を可能にし、多様なオーディオ指向のシナリオをサポートしています。
全てのタイプのオーディオに対するマルチタスク学習フレームワーク：オーディオ言語の事前学習を拡大するために、異なるデータセットに関連するテキストラベルの変動という課題に対処するため、マルチタスク学習フレームワークを提案しています。これにより、知識共有を可能にし、1対多の干渉を回避しています。当社のモデルは30以上のタスクを組み込んでおり、広範な実験により、モデルが強力な性能を達成していることが示されています。
強力な性能：実験結果によると、Qwen-Audioは、特定のタスクに対する微調整を必要とせずに、多様なベンチマークタスクで印象的な性能を達成し、他のモデルを上回っています。具体的には、Qwen-AudioはAishell1、cochlscene、ClothoAQA、およびVocalSoundのテストセットで最先端の結果を達成しています。
柔軟なマルチランチャット（オーディオとテキスト入力）：Qwen-Audioは、複数のオーディオ分析、音声理解と推論、音楽鑑賞、および音声編集のためのツール使用をサポートしています。

モデルの公開

当社は、事前学習モデルであるQwen-AudioとチャットモデルであるQwen-Audio-Chatを公開しています。Qwen-Audioの詳細については、Githubリポジトリを参照してください。このリポジトリはQwen-Audioのものです。

必要条件

Python 3.8以上
PyTorch 1.12以上、2.0以上が推奨
CUDA 11.4以上が推奨（GPUユーザー向け）
FFmpeg

クイックスタートの手順

以下に、🤗 Transformersを使用してQwen-Audioを使用する簡単な例を示します。

コードを実行する前に、環境を設定し、必要なパッケージをインストールしてください。上記の要件を満たしていることを確認し、次に依存ライブラリをインストールします。

pip install -r requirements.txt

詳細については、チュートリアルを参照してください。

🤗 Transformersを使用した推論

Qwen-Audioを推論に使用するには、以下に示すように数行のコードを入力するだけです。ただし、最新のコードを使用していることを確認してください。

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import torch
torch.manual_seed(1234)

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)

# use bf16
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="auto", trust_remote_code=True, bf16=True).eval()
# use fp16
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="auto", trust_remote_code=True, fp16=True).eval()
# use cpu only
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cpu", trust_remote_code=True).eval()
# use cuda device
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cuda", trust_remote_code=True).eval()

# Specify hyperparameters for generation (No need to do this if you are using transformers>4.32.0)
# model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac"
sp_prompt = "<|startoftranscript|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>"
query = f"<audio>{audio_url}</audio>{sp_prompt}"
audio_info = tokenizer.process_audio(query)
inputs = tokenizer(query, return_tensors='pt', audio_info=audio_info)
inputs = inputs.to(model.device)
pred = model.generate(**inputs, audio_info=audio_info)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False,audio_info=audio_info)
print(response)
# <audio>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac</audio><|startoftranscription|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>mister quilting is the apostle of the middle classes and we are glad to welcome his gospel<|endoftext|>

📄 ライセンス

研究者や開発者は、Qwen-Audioのコードとモデルの重みを自由に使用することができます。また、商用利用も許可されています。詳細については、ライセンスを確認してください。

引用

当社の論文とコードがあなたの研究に役立つ場合、スターを付けて引用することを検討してください。

@article{Qwen-Audio,
  title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
  author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie  and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2311.07919},
  year={2023}
}