A

Audiox

由 HKUSTAudio 开发
AudioX是一个统一的扩散变压器模型,可实现任意内容到音频及音乐的生成。它能生成高质量通用音频与音乐作品,提供灵活的自然语言控制,并能无缝处理多种模态输入。
下载量 2,189
发布时间 : 4/2/2025

模型简介

AudioX是一个多模态音频生成模型,能够将文本、视频、图像、音乐和音频等多种输入转换为高质量音频或音乐作品。

模型特点

多模态输入支持
能够处理文本、视频、图像、音乐和音频等多种输入模态
高质量音频生成
生成专业级质量的通用音频和音乐作品
自然语言控制
通过文本提示灵活控制音频生成内容和风格
统一架构
使用扩散变压器架构统一处理不同音频生成任务

模型能力

文本到音频生成
视频配乐生成
图像到音频转换
音频风格转换
音乐创作

使用案例

多媒体创作
视频配乐生成
为视频自动生成匹配的背景音乐
生成与视频内容协调的专业级配乐
音效设计
根据文本描述生成特定场景的音效
创造逼真的环境音效和特殊音效
音乐创作
音乐生成
根据文本提示创作完整音乐作品
生成具有特定风格和情感的音乐
音乐改编
将现有音乐转换为不同风格
保持原曲结构的同时改变音乐风格
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase