Q

Qwen Audio Nf4

由 Ostixe360 开发
Qwen-Audio-nf4是Qwen-Audio的量化版本,支持多种音频输入和文本输出
下载量 134
发布时间 : 4/25/2024

模型简介

Qwen-Audio-nf4是阿里云研发的大规模音频语言模型Qwen-Audio的量化版本,支持多种音频(包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出。

模型特点

多类型音频支持
支持处理人声、自然声、音乐和歌曲等多种音频类型
多任务学习框架
采用多任务训练框架,支持超过30种不同的音频任务
无需微调
在多个基准任务上无需任务特定微调即可取得领先性能
多轮对话支持
支持多轮音频和文本对话,包括声音理解、音乐欣赏等场景

模型能力

音频转文本
多语言音频理解
音乐分析
声音推理
多轮音频-文本对话
语音工具使用

使用案例

语音识别
语音转录
将说话人语音转换为文本
在Aishell1测试集上达到SOTA
环境声音分析
自然声音识别
识别环境中的自然声音类型
在cochlscene测试集上达到SOTA
音乐理解
音乐描述生成
根据音乐生成描述性文本
在ClothoAQA测试集上达到SOTA
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase