Align Base
ALIGNは視覚-言語デュアルエンコーダーモデルで、コントラスト学習により画像とテキスト表現のアラインメントを実現し、大規模ノイズデータを活用して先進的なクロスモーダル表現効果を達成します。
マルチモーダルアライメント
Transformers 英語

A
kakaobrain
78.28k
25
Biomedvlp CXR BERT Specialized
MIT
胸部X線領域に最適化された言語モデル。語彙の改良、革新的な事前学習プロセス、テキスト拡張技術により優れた性能を実現
マルチモーダルアライメント
Transformers 英語

B
microsoft
35.69k
28
Languagebind Image
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として利用し、セマンティックアラインメントを実現します。
マルチモーダルアライメント
Transformers

L
LanguageBind
25.71k
11
Languagebind Video FT
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として、ビデオ、赤外線、深度、音声など様々なモダリティの意味的アライメントを実現します。
マルチモーダルアライメント
Transformers

L
LanguageBind
22.97k
4
Languagebind Audio FT
MIT
LanguageBindは、言語を異なるモーダル間の結びつきとして、意味論的アラインメントを実現する言語中心のマルチモーダル事前学習手法です。
マルチモーダルアライメント
Transformers

L
LanguageBind
12.59k
1
Languagebind Video Merge
MIT
LanguageBindは、言語ベースのセマンティックアラインメントを通じてビデオ-言語事前学習をNモーダルに拡張するマルチモーダルモデルで、ICLR 2024に採択されました。
マルチモーダルアライメント
Transformers

L
LanguageBind
10.96k
4
E5 V
E5-Vはマルチモーダル大規模言語モデルに基づく汎用埋め込み手法で、テキストと画像の入力を処理し統一された埋め込み表現を生成できます。
マルチモーダルアライメント
Transformers

E
royokong
5,619
22
M BERT Base ViT B
BERT-base-multilingualをファインチューニングした多言語CLIPテキストエンコーダで、69言語をCLIPビジュアルエンコーダとアライメントできます。
マルチモーダルアライメント
M
M-CLIP
3,376
12
M3D CLIP
Apache-2.0
M3D-CLIPは3D医用画像専用に設計されたCLIPモデルで、コントラスト損失により視覚と言語のアラインメントを実現します。
マルチモーダルアライメント
Transformers

M
GoodBaiBai88
2,962
9
Languagebind Video Huge V1.5 FT
MIT
LanguageBindは、言語を通じてマルチモーダルの意味的アラインメントを実現する事前学習モデルで、ビデオ、オーディオ、深度、サーモグラフィーなどの様々なモダリティと言語をバインドし、クロスモーダルの理解と検索を可能にします。
マルチモーダルアライメント
Transformers

L
LanguageBind
2,711
4
Languagebind Depth
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として、ビデオ、赤外線、深度、オーディオなど様々なモダリティの意味的アラインメントを実現します。
マルチモーダルアライメント
Transformers

L
LanguageBind
898
0
Languagebind Thermal
MIT
LanguageBindは言語を紐帯としてマルチモーダルの意味的アラインメントを実現する事前学習フレームワークで、ビデオ、赤外線、深度、音声など様々なモダリティと言語の共同学習をサポートします。
マルチモーダルアライメント
Transformers

L
LanguageBind
887
1
Languagebind Video V1.5 FT
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語を異なるモダリティ間の絆として利用し、マルチモーダル意味アラインメントを実現します。
マルチモーダルアライメント
Transformers

L
LanguageBind
853
5
Fg Clip Large
Apache-2.0
FG-CLIPは細粒度視覚とテキストアラインメントモデルで、2段階のトレーニングによりグローバルおよびリージョンレベルの画像テキストアラインメントを実現し、細粒度視覚理解能力を向上させます。
マルチモーダルアライメント
Transformers 英語

F
qihoo360
538
3
Unime LLaVA OneVision 7B
MIT
UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習フレームワークで、テキスト識別知識蒸留とハードネガティブサンプル増強の指示チューニング戦略により、マルチモーダル埋め込み能力を大幅に向上させています。
マルチモーダルアライメント
Transformers 英語

U
DeepGlint-AI
376
2
Languagebind Audio
MIT
LanguageBindは言語を中心としたマルチモーダル事前学習手法で、言語意味アラインメントによりビデオ-言語事前学習をNモーダルに拡張し、高性能なマルチモーダル理解とアラインメントを実現しています。
マルチモーダルアライメント
Transformers

L
LanguageBind
271
3
Internvl3 8B
Apache-2.0
InternVL3-8Bは、高度なマルチモーダル大規模言語モデルで、卓越したマルチモーダル感知と推論能力を備え、画像や動画などのマルチモーダルデータを処理できます。
マルチモーダルアライメント
Transformers

I
unsloth
224
1
Languagebind Video
MIT
LanguageBindは、言語の意味的アライメントを通じてビデオ-言語事前学習をNモーダルに拡張するマルチモーダル事前学習フレームワークで、ICLR 2024に採録されました。
マルチモーダルアライメント
Transformers

L
LanguageBind
166
2
Clap Asm
MIT
CLAPは自然言語監視を通じてバイナリコード表現を学習するフレームワークで、バイナリコードと自然言語記述を整合させることで解析性能を向上させます。
マルチモーダルアライメント
Transformers

C
hustcw
102
19
Emova Qwen 2 5 3b Hf
Apache-2.0
EMOVAはエンドツーエンドの全能モーダル大規模言語モデルで、視覚、聴覚、音声機能をサポートし、感情音声対話能力を備えています。
マルチモーダルアライメント
Transformers 複数言語対応

E
Emova-ollm
101
5
Hpt Base
HPTは異なるエンティティを共有潜在空間にアライメントするトランスフォーマーモデルで、戦略学習における拡張行動の研究に焦点を当てています。
マルチモーダルアライメント
Transformers

H
liruiw
70
10
Unime Phi3.5 V 4.2B
MIT
UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習モデルで、モーダルの壁を打破し、クロスモーダル検索と埋め込み学習を実現することに焦点を当てています。
マルチモーダルアライメント
Transformers 英語

U
DeepGlint-AI
54
4