T

Tangoflux

declare-labによって開発
TangoFluxは効率的なテキスト音声変換生成システムで、フローマッチングとCLAP選好最適化技術を組み合わせ、高品質な音声を迅速に生成できます。
ダウンロード数 727
リリース時間 : 12/24/2024

モデル概要

TangoFluxはFluxTransformerモジュール(拡散トランスフォーマーとマルチモーダル拡散トランスフォーマーを含む)を使用し、44.1kHz/30秒以内の音声を生成し、テキストプロンプトと時間埋め込みをサポートします。

モデル特徴

超高速生成
短時間で高品質な音声を生成可能で、デフォルト25ステップ生成、より高品質を得るには50ステップを推奨。
高忠実度音声
44.1kHzサンプリングレートをサポートし、30秒以内の音声を生成し、音質を保証します。
マルチモーダルサポート
テキストプロンプトと時間埋め込みによる音声生成で、マルチモーダル入力をサポートします。
3段階トレーニングプロセス
事前トレーニング、ファインチューニング、選好最適化の3段階を含み、CRPO手法でモデル性能を最適化します。

モデル能力

テキスト音声変換生成
高忠実度音声生成
マルチモーダル入力処理

使用事例

クリエイティブコンテンツ生成
効果音生成
テキスト記述に基づき特定の効果音を生成、例:'木の机をゆっくり叩くハンマー'。
高品質で記述に合致した音声ファイルを生成。
マルチメディアアプリケーション
BGM生成
動画やゲーム用のBGMを生成。
シーンにマッチしたBGMを生成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase