A

Audiox

HKUSTAudioによって開発
AudioXは任意のコンテンツから音声や音楽を生成できる統一拡散トランスフォーマーモデルです。高品質な汎用音声と音楽作品を生成し、柔軟な自然言語制御を提供し、複数のモダリティ入力をシームレスに処理できます。
ダウンロード数 2,189
リリース時間 : 4/2/2025

モデル概要

AudioXはテキスト、動画、画像、音楽、音声など様々な入力を高品質な音声や音楽作品に変換できるマルチモーダル音声生成モデルです。

モデル特徴

マルチモーダル入力サポート
テキスト、動画、画像、音楽、音声など様々な入力モダリティを処理可能
高品質音声生成
プロフェッショナルレベルの汎用音声と音楽作品を生成
自然言語制御
テキストプロンプトによる音声生成内容とスタイルの柔軟な制御
統一アーキテクチャ
拡散トランスフォーマーアーキテクチャで異なる音声生成タスクを統一的に処理

モデル能力

テキストから音声生成
映像音楽生成
画像から音声変換
音声スタイル変換
音楽創作

使用事例

マルチメディア創作
映像音楽生成
動画に自動的にマッチするBGMを生成
映像内容に調和したプロフェッショナルレベルのBGMを生成
サウンドデザイン
テキスト記述に基づき特定シーンの効果音を生成
リアルな環境音や特殊効果音を創造
音楽創作
音楽生成
テキストプロンプトに基づき完全な音楽作品を創作
特定のスタイルと情感を持つ音楽を生成
音楽アレンジ
既存音楽を異なるスタイルに変換
原曲の構造を保ちつつ音楽スタイルを変更
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase