Qwen-Audio-nf4開源音頻模型 - 免費支持多種音頻輸入轉文本輸出

Home

Qwen Audio Nf4

Developed by Ostixe360

Qwen-Audio-nf4是Qwen-Audio的量化版本，支持多種音頻輸入和文本輸出

音頻生成文本

Transformers

Supports Multiple Languages#多任務音頻理解 #多語言音頻處理 #音頻文本交互

Downloads 134

Release Time : 4/25/2024

Model Overview

Qwen-Audio-nf4是阿里雲研發的大規模音頻語言模型Qwen-Audio的量化版本，支持多種音頻（包括說話人語音、自然音、音樂、歌聲）和文本作為輸入，並以文本作為輸出。

Model Features

多類型音頻支持

支持處理人聲、自然聲、音樂和歌曲等多種音頻類型

多任務學習框架

採用多任務訓練框架，支持超過30種不同的音頻任務

無需微調

在多個基準任務上無需任務特定微調即可取得領先性能

多輪對話支持

支持多輪音頻和文本對話，包括聲音理解、音樂欣賞等場景

Model Capabilities

音頻轉文本

多語言音頻理解

音樂分析

聲音推理

多輪音頻-文本對話

語音工具使用

Use Cases

語音識別

語音轉錄

將說話人語音轉換為文本

在Aishell1測試集上達到SOTA

環境聲音分析

自然聲音識別

識別環境中的自然聲音類型

在cochlscene測試集上達到SOTA

音樂理解

音樂描述生成

根據音樂生成描述性文本

在ClothoAQA測試集上達到SOTA

🚀 Qwen-Audio-nf4

Qwen-Audio-nf4 是 Qwen-Audio 的量化版本。該模型由阿里雲研發，可接受多種音頻（包括說話人語音、自然音、音樂、歌聲）和文本作為輸入，並以文本作為輸出，在多種基準任務中表現出色。

✨ 主要特性

基礎音頻模型

Qwen-Audio 是一個基礎的多任務音頻語言模型，支持各種任務、語言和音頻類型，可作為通用的音頻理解模型。在此基礎上，通過指令微調開發了 Qwen-Audio-Chat，實現多輪對話，支持多種音頻場景。

全類型音頻的多任務學習框架

為了擴展音頻語言預訓練，提出了多任務訓練框架，解決不同數據集文本標籤變化的挑戰，實現知識共享，避免一對多幹擾。模型包含 30 多個任務，大量實驗表明該模型性能強勁。

出色性能

實驗結果顯示，Qwen-Audio 在各種基準任務中無需特定任務微調即可取得優異成績，超越同類模型。具體而言，在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 測試集上達到了當前最優結果。

靈活的多輪音頻和文本輸入對話

Qwen-Audio 支持多音頻分析、聲音理解和推理、音樂欣賞以及語音編輯工具的使用。

📦 安裝指南

在使用 Qwen-Audio 之前，請確保滿足以下環境要求，並安裝所需的依賴庫：

Python 3.8 及以上版本
PyTorch 1.12 及以上版本，推薦 2.0 及以上版本
推薦使用 CUDA 11.4 及以上版本（適用於 GPU 用戶）
FFmpeg

安裝依賴庫的命令如下：

pip install -r requirements.txt

更多詳細信息，請參考教程。

💻 使用示例

基礎用法

以下是使用 🤗 Transformers 庫調用 Qwen-Audio 進行推理的示例代碼：

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import torch
torch.manual_seed(1234)

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)

# 使用 bf16
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="auto", trust_remote_code=True, bf16=True).eval()
# 使用 fp16
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="auto", trust_remote_code=True, fp16=True).eval()
# 僅使用 CPU
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cpu", trust_remote_code=True).eval()
# 使用 CUDA 設備
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-Audio", device_map="cuda", trust_remote_code=True).eval()

# 指定生成的超參數（如果使用 transformers>4.32.0，則無需執行此操作）
# model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-Audio", trust_remote_code=True)
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac"
sp_prompt = "<|startoftranscript|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>"
query = f"<audio>{audio_url}</audio>{sp_prompt}"
audio_info = tokenizer.process_audio(query)
inputs = tokenizer(query, return_tensors='pt', audio_info=audio_info)
inputs = inputs.to(model.device)
pred = model.generate(**inputs, audio_info=audio_info)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False,audio_info=audio_info)
print(response)
# <audio>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Audio/1272-128104-0000.flac</audio><|startoftranscription|><|en|><|transcribe|><|en|><|notimestamps|><|wo_itn|>mister quilting is the apostle of the middle classes and we are glad to welcome his gospel<|endoftext|>

注意事項

請確保使用的是最新代碼。
在運行代碼前，請確保已正確設置環境並安裝所需的依賴庫。

📄 許可證

研究人員和開發者可以自由使用 Qwen-Audio 的代碼和模型權重，也允許進行商業使用。更多詳細的許可信息，請查看 LICENSE。

📚 詳細文檔

如需瞭解更多關於 Qwen-Audio 的詳細信息，請訪問 Github 倉庫。

📚 引用

如果您在研究中使用了我們的論文和代碼，請考慮給我們一個 Star 並進行引用：

@article{Qwen-Audio,
  title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
  author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie  and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2311.07919},
  year={2023}
}