# 拡散Transformer

Megatts3
Apache-2.0
MegaTTS 3は、スパースアライメント強化型の潜在拡散Transformerに基づくゼロショット音声合成モデルで、中国語と英語の音声合成をサポートしています。
音声合成 Safetensors 複数言語対応
M
RedbeardNZ
26
0
Hunyuan3d 2
その他
テンセントが提供する先進的な3D合成システムで、画像やテキストから高解像度のテクスチャ付き3Dアセットを生成可能
3Dビジョン 複数言語対応
H
tencent
490.00k
1,314
Rdt 170m
MIT
RDT-170Mは1.7億パラメータを持つ模倣学習拡散Transformerモデルで、ロボットの視覚-言語-動作タスクに使用されます。
マルチモーダル融合 Transformers 英語
R
robotics-diffusion-transformer
278
7
Ominicontrol
OminiControl は拡散Transformerベースの汎用制御モデルで、画像から画像へのタスクに特化しています。
画像生成
O
Yuanshi
6,390
139
Rdt 1b
MIT
100万以上のマルチロボット操作データで事前学習された10億パラメータの模倣学習拡散Transformerモデルで、マルチビュー視覚言語動作予測をサポート
マルチモーダル融合 Transformers 英語
R
robotics-diffusion-transformer
2,644
80
Pixart LCM XL 2 1024 MS
PixArt-LCMは拡散Transformerに基づくテキストから画像への生成モデルで、Pixart-αとLCMの利点を組み合わせ、テキストプロンプトに基づいて高速に高品質な画像を生成できます。
画像生成
P
PixArt-alpha
625
60
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase