# マルチタスク統一フレームワーク

Lotus Depth D V1 0
Apache-2.0
Lotusは拡散モデルベースの視覚基盤モデルで、高品質な密集予測タスクに特化しています。
3Dビジョン
L
jingheya
135
4
Blip Image Captioning Base Football Finetuned
Bsd-3-clause
COCOで事前学習され、サッカーデータセットでファインチューンされた視覚-言語モデルで、画像キャプション生成に優れています
画像生成テキスト Transformers
B
ybelkada
71
2
Mask2former Swin Large Mapillary Vistas Panoptic
その他
Swinバックボーンネットワークに基づくMask2Formerの大規模バージョンで、パノプティックセグメンテーションタスク向けに設計され、Mapillary Vistasデータセットでトレーニング
画像セグメンテーション Transformers
M
facebook
2,750
2
Mask2former Swin Large Coco Panoptic
その他
Swinバックボーンネットワークに基づくMask2Formerの大型バージョンで、COCOデータセットのパノプティックセグメンテーションタスク向けに訓練された統一画像セグメンテーションモデル
画像セグメンテーション Transformers
M
facebook
37.67k
30
Ul2
Apache-2.0
UL2は統一された事前学習モデルフレームワークで、混合ノイズ除去器(MoD)を事前学習目標として採用し、複数の事前学習パラダイムを組み合わせ、様々なデータセットと設定で普遍的に効果を発揮します。
大規模言語モデル Transformers 英語
U
google
463
177
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase