Q

Qwen Audio Nf4

Developed by Ostixe360
Qwen-Audio-nf4是Qwen-Audio的量化版本,支持多種音頻輸入和文本輸出
Downloads 134
Release Time : 4/25/2024

Model Overview

Qwen-Audio-nf4是阿里雲研發的大規模音頻語言模型Qwen-Audio的量化版本,支持多種音頻(包括說話人語音、自然音、音樂、歌聲)和文本作為輸入,並以文本作為輸出。

Model Features

多類型音頻支持
支持處理人聲、自然聲、音樂和歌曲等多種音頻類型
多任務學習框架
採用多任務訓練框架,支持超過30種不同的音頻任務
無需微調
在多個基準任務上無需任務特定微調即可取得領先性能
多輪對話支持
支持多輪音頻和文本對話,包括聲音理解、音樂欣賞等場景

Model Capabilities

音頻轉文本
多語言音頻理解
音樂分析
聲音推理
多輪音頻-文本對話
語音工具使用

Use Cases

語音識別
語音轉錄
將說話人語音轉換為文本
在Aishell1測試集上達到SOTA
環境聲音分析
自然聲音識別
識別環境中的自然聲音類型
在cochlscene測試集上達到SOTA
音樂理解
音樂描述生成
根據音樂生成描述性文本
在ClothoAQA測試集上達到SOTA
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase