Q

Qwen Audio Nf4

由Ostixe360開發
Qwen-Audio-nf4是Qwen-Audio的量化版本,支持多種音頻輸入和文本輸出
下載量 134
發布時間 : 4/25/2024

模型概述

Qwen-Audio-nf4是阿里雲研發的大規模音頻語言模型Qwen-Audio的量化版本,支持多種音頻(包括說話人語音、自然音、音樂、歌聲)和文本作為輸入,並以文本作為輸出。

模型特點

多類型音頻支持
支持處理人聲、自然聲、音樂和歌曲等多種音頻類型
多任務學習框架
採用多任務訓練框架,支持超過30種不同的音頻任務
無需微調
在多個基準任務上無需任務特定微調即可取得領先性能
多輪對話支持
支持多輪音頻和文本對話,包括聲音理解、音樂欣賞等場景

模型能力

音頻轉文本
多語言音頻理解
音樂分析
聲音推理
多輪音頻-文本對話
語音工具使用

使用案例

語音識別
語音轉錄
將說話人語音轉換為文本
在Aishell1測試集上達到SOTA
環境聲音分析
自然聲音識別
識別環境中的自然聲音類型
在cochlscene測試集上達到SOTA
音樂理解
音樂描述生成
根據音樂生成描述性文本
在ClothoAQA測試集上達到SOTA
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase