T

Tango

declare-labによって開発
TANGOは命令誘導拡散に基づくテキストから音声へのモデルで、テキストプロンプトに基づいて人間の声、動物の鳴き声、自然および人工音響を含むリアルな音声を生成できます。
ダウンロード数 118
リリース時間 : 4/23/2023

モデル概要

TANGOはテキストから音声を生成するための潜在拡散モデルで、テキストエンコーダーとしてFlan-T5を使用し、UNetアーキテクチャに基づく拡散モデルで音声を生成します。

モデル特徴

命令誘導拡散
命令調整大規模言語モデルFlan-T5をテキストエンコーダーとして採用し、正確なテキスト-音声マッピングを実現
高品質音声生成
客観的指標と主観的評価の両方で現在の最先端音声生成モデルを凌駕
多様な音声生成
人間の声、動物の鳴き声、自然および人工音響など、さまざまなタイプの音声生成をサポート

モデル能力

テキストから音声生成
多様な音声合成
高忠実度音声生成

使用事例

マルチメディアコンテンツ制作
映像音響効果生成
脚本の記述に基づいてシーン音響効果を自動生成
リアルな環境音と特殊効果を生成
ゲームオーディオデザイン
ゲームシーン向けに動的音響効果を生成
没入型のゲームオーディオ体験を創造
支援技術
視覚障害者支援
テキスト記述を環境音ヒントに変換
視覚障害者が周囲環境を理解するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase