# マルチモーダルアラインメント

Vit Huge Patch14 Clip 224.dfn5b
その他
CLIPアーキテクチャに基づくViT-Huge画像エンコーダーで、AppleがリリースしたDFN5B-CLIPモデル。視覚特徴抽出タスクに適しています。
画像分類 Transformers
V
timm
128
0
Vit So400m Patch14 Siglip 224.webli
Apache-2.0
SigLIPベースの視覚Transformerモデル、画像エンコーダ部分のみを含み、オリジナルアテンションプーリングメカニズムを採用
画像分類 Transformers
V
timm
123
1
Languagebind Video Huge V1.5 FT
MIT
LanguageBindは、言語を通じてマルチモーダルの意味的アラインメントを実現する事前学習モデルで、ビデオ、オーディオ、深度、サーモグラフィーなどの様々なモダリティと言語をバインドし、クロスモーダルの理解と検索を可能にします。
マルチモーダルアライメント Transformers
L
LanguageBind
2,711
4
Languagebind Audio FT
MIT
LanguageBindは、言語を異なるモーダル間の結びつきとして、意味論的アラインメントを実現する言語中心のマルチモーダル事前学習手法です。
マルチモーダルアライメント Transformers
L
LanguageBind
12.59k
1
Languagebind Video Merge
MIT
LanguageBindは、言語ベースのセマンティックアラインメントを通じてビデオ-言語事前学習をNモーダルに拡張するマルチモーダルモデルで、ICLR 2024に採択されました。
マルチモーダルアライメント Transformers
L
LanguageBind
10.96k
4
Languagebind Image
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として利用し、セマンティックアラインメントを実現します。
マルチモーダルアライメント Transformers
L
LanguageBind
25.71k
11
Languagebind Depth
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として、ビデオ、赤外線、深度、オーディオなど様々なモダリティの意味的アラインメントを実現します。
マルチモーダルアライメント Transformers
L
LanguageBind
898
0
Languagebind Audio
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語意味アラインメントによりビデオ-言語事前学習をNモーダルに拡張し、高性能なマルチモーダル理解とアラインメントを実現しています。
マルチモーダルアライメント Transformers
L
LanguageBind
271
3
Languagebind Thermal
MIT
LanguageBindは言語を紐帯としてマルチモーダルの意味的アラインメントを実現する事前学習フレームワークで、ビデオ、赤外線、深度、音声など様々なモダリティと言語の共同学習をサポートします。
マルチモーダルアライメント Transformers
L
LanguageBind
887
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase