# 画像テキスト検索

Fg Clip Large
Apache-2.0
FG-CLIPは細粒度視覚とテキストアラインメントモデルで、2段階のトレーニングによりグローバルおよびリージョンレベルの画像テキストアラインメントを実現し、細粒度視覚理解能力を向上させます。
マルチモーダルアライメント Transformers 英語
F
qihoo360
538
3
Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2はSigLIPを改良した多言語視覚言語エンコーダで、意味理解、位置特定、密な特徴抽出能力が強化されています。
画像生成テキスト Transformers
S
google
44.75k
38
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、高密度特徴抽出能力を向上させるために複数の技術を統合しています。
テキスト生成画像 Transformers
S
google
159.81k
21
Siglip2 Base Patch16 Naflex
Apache-2.0
SigLIP 2は多言語視覚-言語エンコーダーで、SigLIPの事前学習目標を統合し新しい訓練スキームを追加することで、意味理解、位置特定、高密度特徴抽出能力を向上させました。
テキスト生成画像 Transformers
S
google
10.68k
5
Siglip2 So400m Patch16 512
Apache-2.0
SigLIP 2はSigLIPを基盤とした視覚言語モデルで、意味理解、位置特定、高密度特徴抽出能力が強化されています。
テキスト生成画像 Transformers
S
google
46.46k
18
Siglip2 So400m Patch16 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。
テキスト生成画像 Transformers
S
google
7,632
2
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2はSigLIPをベースに改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
2,729
0
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標に基づく視覚言語モデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。
画像生成テキスト Transformers
S
google
622.54k
20
Siglip2 So400m Patch14 224
Apache-2.0
SigLIP 2 は SigLIP を改良した多言語視覚言語エンコーダーで、意味理解、位置特定、高密度特徴抽出能力が強化されています。
画像生成テキスト Transformers
S
google
23.11k
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標を基に改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
26.12k
14
Siglip2 Giant Opt Patch16 256
Apache-2.0
SigLIP 2 は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した先進的な視覚言語モデルです。
テキスト生成画像 Transformers
S
google
3,936
1
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2はSigLIPをベースに改良されたモデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
4,416
8
Siglip2 Large Patch16 384
Apache-2.0
SigLIP 2 は SigLIP を基に改良された多言語視覚言語エンコーダーで、意味理解、位置特定、高密度特徴抽出能力が向上しています。
テキスト生成画像 Transformers
S
google
6,525
2
Siglip2 Large Patch16 256
Apache-2.0
SigLIP 2 は SigLIP を改良した視覚言語モデルで、意味理解、位置特定、高密度特徴抽出能力を向上させるために複数の技術を統合しています。
テキスト生成画像 Transformers
S
google
10.89k
3
Siglip2 Base Patch16 512
Apache-2.0
SigLIP 2は、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合した視覚言語モデルです。
テキスト生成画像 Transformers
S
google
28.01k
10
Siglip2 Base Patch16 384
Apache-2.0
SigLIP 2はSigLIPを基にした視覚言語モデルで、統一されたトレーニング手法により意味理解、位置特定、高密度特徴抽出能力を向上させています。
画像生成テキスト Transformers
S
google
4,832
5
Siglip2 Base Patch16 256
Apache-2.0
SigLIP 2は多言語の視覚言語エンコーダで、意味理解、位置特定、高密度特徴抽出能力が向上しています。
画像生成テキスト Transformers
S
google
45.24k
4
Siglip2 Base Patch32 256
Apache-2.0
SigLIP 2はSigLIPを基に改良されたバージョンで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術が統合されています。
テキスト生成画像 Transformers
S
google
9,419
4
Llm Jp Clip Vit Large Patch14
Apache-2.0
OpenCLIPフレームワークでトレーニングされた日本語CLIPモデルで、14.5億の日本語画像テキストペアデータセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクをサポートします
テキスト生成画像 日本語
L
llm-jp
254
1
Llm Jp Clip Vit Base Patch16
Apache-2.0
日本語CLIPモデル、OpenCLIPフレームワークで訓練され、ゼロショット画像分類タスクをサポート
テキスト生成画像 日本語
L
llm-jp
40
1
Siglip So400m Patch14 224
Apache-2.0
SigLIPはCLIPを改良したマルチモーダルモデルで、より優れたSigmoid損失関数を採用し、WebLiデータセットで事前学習されており、ゼロショット画像分類や画像-テキスト検索などのタスクに適しています。
テキスト生成画像 Transformers
S
google
6,654
53
Tic CLIP Basic Oracle
その他
TiC-CLIPはOpenCLIPを改良した視覚言語モデルで、時間的持続学習に焦点を当て、2014年から2022年までの訓練データをカバーしています
テキスト生成画像
T
apple
37
0
Clip Japanese Base
Apache-2.0
LY Corporationによって開発された日本語CLIPモデルで、約10億個のウェブから収集された画像 - テキストペアを基に訓練され、様々なビジュアルタスクに適しています。
テキスト生成画像 Transformers 日本語
C
line-corporation
14.31k
22
Siglip So400m Patch14 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数を採用し、画像-テキストマッチングタスクを最適化しています。
画像生成テキスト Transformers
S
google
6.1M
526
Siglip Large Patch16 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習されたマルチモーダルモデルで、改良されたSigmoid損失関数を採用しており、ゼロショット画像分類や画像テキスト検索タスクに適しています。
画像生成テキスト Transformers
S
google
245.21k
6
Siglip Large Patch16 256
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数により性能を向上
画像生成テキスト Transformers
S
google
24.13k
12
Siglip Base Patch16 512
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚-言語モデルで、改良されたシグモイド損失関数を採用し、画像分類と画像テキスト検索タスクで優れた性能を発揮します。
テキスト生成画像 Transformers
S
google
237.79k
24
Siglip Base Patch16 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習されたマルチモーダルモデルで、改良されたシグモイド損失関数を採用しており、ゼロショット画像分類や画像テキスト検索タスクに適しています。
画像生成テキスト Transformers
S
google
2,570
10
Siglip Base Patch16 256
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたSigmoid損失関数を採用し、画像分類や画像テキスト検索タスクで優れた性能を発揮します。
テキスト生成画像 Transformers
S
google
12.71k
5
Japanese Clip Vit B 32 Roberta Base
日本語版CLIPモデルで、日本語テキストと画像を同じ埋め込み空間にマッピングでき、ゼロショット画像分類、テキスト-画像検索などのタスクに適しています。
テキスト生成画像 Transformers 日本語
J
recruit-jp
384
9
Clip Flant5 Xl
Apache-2.0
画像 - テキスト検索タスク用に微調整されたビジュアル - 言語生成モデルで、google/flan-t5-xlをベースに改良されています。
テキスト生成画像 Transformers 英語
C
zhiqiulin
13.44k
2
Clip Flant5 Xxl
Apache-2.0
google/flan-t5-xxlをベースに微調整されたビジュアル言語生成モデルで、画像テキスト検索タスク向けに設計されています。
画像生成テキスト Transformers 英語
C
zhiqiulin
86.23k
2
Siglip Base Patch16 224
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたSigmoid損失関数を採用し、画像-テキストマッチングタスクを最適化
画像生成テキスト Transformers
S
google
250.28k
43
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Rewind
MIT
LAION-2Bデータセットで訓練されたCLIP ConvNeXt-XXLargeモデルで、OpenCLIPフレームワークを使用し、ゼロショット画像分類タスクに焦点を当てています。
テキスト生成画像
C
laion
63
2
Align Base
ALIGNは視覚-言語デュアルエンコーダーモデルで、コントラスト学習により画像とテキスト表現のアラインメントを実現し、大規模ノイズデータを活用して先進的なクロスモーダル表現効果を達成します。
マルチモーダルアライメント Transformers 英語
A
kakaobrain
78.28k
25
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase