# マルチモーダル拡散

Mmada 8B MixCoT
MIT
MMaDAは新しいタイプのマルチモーダル拡散基盤モデルであり、テキスト推論、マルチモーダル理解、テキストから画像生成など複数の分野で優れた性能を発揮します。
テキスト生成画像 Transformers
M
Gen-Verse
601
3
Mmada 8B Base
MIT
MMaDAは新しいマルチモーダル拡散基盤モデルで、テキスト推論、マルチモーダル理解、テキストから画像生成などの分野で優れた性能を発揮します。
テキスト生成画像 Transformers
M
Gen-Verse
6,304
56
Stable Diffusion 3.5 Large Turbo Ungated
その他
マルチモーダル拡散トランスフォーマー(MMDiT)を基盤としたテキストから画像へのモデルで、敵対的拡散蒸留(ADD)技術を採用し、画像品質、レイアウト、複雑なプロンプト理解を最適化するとともに、推論ステップを削減しています。
テキスト生成画像 英語
S
adamo1139
552
4
Text To Video Lvd Ms
このモデルは大規模言語モデルとビデオ拡散技術を組み合わせ、テキストから動画生成をサポートし、バウンディングボックス条件入力を通じて動画内容を制御できます。
テキスト生成ビデオ
T
longlian
91
2
Altdiffusion M9
Openrail
AltDiffusion-m9はStable Diffusionフレームワークに基づく多言語テキストから画像生成モデルで、9言語をサポートし、AltCLIP-m9多言語CLIPモデルによって駆動されます。
テキスト生成画像 複数言語対応
A
BAAI
46
70
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase