T

Tango2 Full

declare-labによって開発
Tango 2はTangoを改良したテキストから音声生成モデルで、直接選好最適化(DPO)技術を用いて音声生成のアライメントトレーニングを実現
ダウンロード数 63
リリース時間 : 4/13/2024

モデル概要

Tango 2は拡散型テキストから音声生成モデルで、Tango-full-ftチェックポイントを基に、Audio-alpacaのペアになったテキスト-音声選好データセットでDPOアライメントトレーニングを行い、テキスト記述に基づいて高品質な音声を生成可能

モデル特徴

直接選好最適化(DPO)
DPO技術を使用してモデルのアライメントトレーニングを行い、生成音声の品質とテキスト記述との一致度を向上
拡張トレーニングデータセット
拡張版Audio-alpacaデータセットでトレーニングを行い、モデルの汎化能力を強化
高品質音声生成
100-200ステップのサンプリングをサポートし、高品質な音声効果を生成可能

モデル能力

テキストから音声変換
バッチ音声生成
シーン音響合成

使用事例

マルチメディア制作
音響効果生成
テキスト記述に基づいて特定シーンの音響効果を自動生成
雷鳴、歓声などの高品質音響効果を生成可能
背景音楽合成
シーン記述に合わせた背景音楽を生成
ゲーム開発
ゲーム音響制作
様々なゲームシーンに必要な音響効果を迅速に生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase