# マルチモーダル埋め込み

Unime Phi3.5 V 4.2B
MIT
UniMEはマルチモーダル大規模モデルに基づく汎用埋め込み学習モデルで、モーダルの壁を打破し、クロスモーダル検索と埋め込み学習を実現することに焦点を当てています。
マルチモーダルアライメント Transformers 英語
U
DeepGlint-AI
54
4
So400m Long
Apache-2.0
SigLIP 2を微調整した視覚言語モデルで、最大テキスト長を64から256トークンに拡張
テキスト生成画像 Transformers 英語
S
fancyfeast
27
3
Omniembed V0.1
MIT
Qwen2.5-Omni-7Bをベースに構築されたマルチモーダル埋め込みモデルで、多言語テキスト、画像、音声、動画の統一された埋め込み表現をサポート
マルチモーダル融合
O
Tevatron
2,190
3
Nomic Embed Multimodal 3b
Nomic Embed Multimodal 3Bは最先端のマルチモーダル埋め込みモデルで、視覚文書検索タスクに特化しており、統一テキスト-画像エンコーディングをサポートし、Vidore-v2テストで58.8 NDCG@5という卓越した性能を達成しました。
テキスト生成画像 複数言語対応
N
nomic-ai
3,431
11
Colnomic Embed Multimodal 3b
ColNomic Embedマルチモーダル3Bは30億パラメータのマルチモーダル埋め込みモデルで、視覚文書検索タスク向けに設計されており、多言語テキストと画像の統一エンコーディングをサポートします。
マルチモーダル融合 複数言語対応
C
nomic-ai
4,636
17
Finseer
金融時系列予測専用に設計された初の検索器、検索拡張生成(RAG)フレームワークに基づく
大規模言語モデル Transformers 英語
F
TheFinAI
13
1
Nitibench Ccl Human Finetuned Bge M3
MIT
BAAI/bge-m3モデルをタイ語法律クエリデータでファインチューニングしたバージョンで、密検索、語彙マッチング、マルチベクトル相互作用をサポート
テキスト埋め込み その他
N
VISAI-AI
51
1
Llave 7B
Apache-2.0
LLaVE-7BはLLaVA-OneVision-7Bモデルを基にした70億パラメータのマルチモーダル埋め込みモデルで、テキスト、画像、複数画像、動画の埋め込み表現能力を備えています。
マルチモーダル融合 Transformers 英語
L
zhibinlan
1,389
5
Llave 2B
Apache-2.0
LLaVE-2BはAquila-VL-2Bモデルを基にした20億パラメータのマルチモーダル埋め込みモデルで、4Kトークンのコンテキストウィンドウを持ち、テキスト、画像、複数画像、動画の埋め込み表現をサポートします。
テキスト生成画像 Transformers 英語
L
zhibinlan
20.05k
45
Llave 0.5B
Apache-2.0
LLaVEはLLaVA-OneVision-0.5Bモデルを基にしたマルチモーダル埋め込みモデルで、パラメータ規模は0.5B、テキスト、画像、複数画像、動画の埋め込みが可能です。
マルチモーダル融合 Transformers 英語
L
zhibinlan
2,897
7
Vit Base Patch16 Siglip 512.webli
Apache-2.0
SigLIPアーキテクチャに基づく視覚Transformerモデル、画像エンコーダ部分のみを含み、オリジナルのアテンションプーリングメカニズムを採用
画像分類 Transformers
V
timm
702
0
Taxabind Vit B 16
MIT
TaxaBindは6つのモダリティを含むマルチモーダル埋め込み空間モデルで、生態系アプリケーションに焦点を当て、分類学テキストカテゴリを使用して種の画像をゼロショット分類することをサポートします。
マルチモーダル融合
T
MVRL
3,672
0
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 は、文書スクリーンショットを密なベクトルにエンコードして文書検索を実現するために設計されたデュアルエンコーダーモデルです。
マルチモーダル融合 複数言語対応
D
MrLight
4,447
56
Bge M3 Gguf
MIT
bge-m3埋め込みモデルのGGUF量子化バージョン、効率的なテキスト埋め込みタスクに適しています
テキスト埋め込み
B
lm-kit
2,885
10
E5 V
E5-Vはマルチモーダル大規模言語モデルに基づく汎用埋め込み手法で、テキストと画像の入力を処理し統一された埋め込み表現を生成できます。
マルチモーダルアライメント Transformers
E
royokong
5,619
22
Nomic Embed Vision V1.5
Apache-2.0
高性能視覚埋め込みモデル、nomic-embed-text-v1.5と同一の埋め込み空間を共有し、マルチモーダルアプリケーションをサポート
テキスト生成画像 Transformers 英語
N
nomic-ai
27.85k
161
Nomic Embed Vision V1
Apache-2.0
高性能ビジョン埋め込みモデル、nomic-embed-text-v1と同じ埋め込み空間を共有し、マルチモーダルアプリケーションをサポート
テキスト生成画像 Transformers 英語
N
nomic-ai
2,032
22
Bge M3 Onnx
MIT
BGE-M3は密検索、語彙マッチング、マルチベクトル相互作用をサポートする埋め込みモデルで、ONNX Runtimeなどのフレームワークとの互換性のためにONNX形式に変換されています。
テキスト埋め込み Transformers
B
aapot
292
29
Siglip Base Patch16 224
SigLIPは視覚と言語の事前学習に基づくモデルで、ゼロショット画像分類タスクに適しています。
テキスト生成画像 Transformers
S
Xenova
182
1
Clip Vit Base Patch16
OpenAIがオープンソース化したCLIPモデル、Vision Transformerアーキテクチャに基づき、画像とテキストのクロスモーダル理解をサポート
テキスト生成画像 Transformers
C
Xenova
32.99k
9
Chinese Clip Vit Base Patch16
中国語CLIPの基本バージョンで、ViT-B/16を画像エンコーダー、RoBERTa-wwm-baseをテキストエンコーダーとして使用し、約2億組の中国語画像テキストペアの大規模データセットでトレーニングされています。
テキスト生成画像 Transformers
C
OFA-Sys
49.02k
104
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase