2025年最高の 895 個の画像生成テキストツール

Clip Vit Large Patch14
CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします
画像生成テキスト
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIPはOpenAIが開発したマルチモーダルモデルで、画像とテキストの関係を理解し、ゼロショット画像分類タスクをサポートします。
画像生成テキスト
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数を採用し、画像-テキストマッチングタスクを最適化しています。
画像生成テキスト Transformers
S
google
6.1M
526
Clip Vit Base Patch16
CLIPはOpenAIが開発したマルチモーダルモデルで、コントラスティブラーニングにより画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類能力を実現します。
画像生成テキスト
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIPは先進的な視覚-言語事前学習モデルで、画像キャプション生成タスクに優れており、条件付きおよび無条件のテキスト生成をサポートします。
画像生成テキスト Transformers
B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成タスクに優れており、条件付きおよび無条件の画像キャプション生成をサポートします。
画像生成テキスト Transformers
B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7BはOpen X-Embodimentデータセットでトレーニングされたオープンソースの視覚-言語-動作モデルで、言語命令とカメラ画像に基づいてロボットの動作を生成できます。
画像生成テキスト Transformers 英語
O
openvla
1.7M
108
Llava V1.5 7b
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、画像とテキストのインタラクションをサポートします。
画像生成テキスト Transformers
L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
これはViTとGPT2アーキテクチャに基づく画像記述生成モデルで、入力画像に対して自然言語の記述を生成することができます。
画像生成テキスト Transformers
V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキストを生成するタスクに使用されます。
画像生成テキスト Transformers 英語
B
Salesforce
867.78k
359
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2はSigLIP事前学習目標に基づく視覚言語モデルで、意味理解、位置特定、密な特徴抽出能力を向上させるために複数の技術を統合しています。
画像生成テキスト Transformers
S
google
622.54k
20
Gemma 3 4b It
GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究と技術に基づいて構築されています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。
画像生成テキスト Transformers
G
google
608.22k
477
Llava Llama 3 8b V1 1 Transformers
Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像テキストからテキストタスクをサポート
画像生成テキスト
L
xtuner
454.61k
78
Phi 3.5 Vision Instruct
MIT
Phi-3.5-visionは、軽量で最先端のオープンマルチモーダルモデルで、128Kのコンテキスト長をサポートし、高品質で推論に富んだテキストと視覚データに焦点を当てています。
画像生成テキスト Transformers その他
P
microsoft
397.38k
679
Gemma 3 27b It
GemmaはGoogleが提供する軽量で最先端のオープンモデルシリーズで、Geminiと同じ技術を基に構築されており、マルチモーダル入力とテキスト出力をサポートします。
画像生成テキスト Transformers
G
google
371.46k
1,274
Git Base
MIT
GITはCLIP画像トークンとテキストトークンを双条件とするTransformerデコーダで、画像からテキストを生成するタスクに使用されます。
画像生成テキスト Transformers 複数言語対応
G
microsoft
365.74k
93
Gemma 3 12b It
GemmaはGoogleが提供する軽量で最先端のオープンソースマルチモーダルモデルシリーズで、Geminiモデルの技術を基に構築されており、テキストと画像の入力をサポートし、テキスト出力を生成します。
画像生成テキスト Transformers
G
google
364.65k
340
Siglip Base Patch16 224
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたSigmoid損失関数を採用し、画像-テキストマッチングタスクを最適化
画像生成テキスト Transformers
S
google
250.28k
43
Siglip Large Patch16 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習されたマルチモーダルモデルで、改良されたSigmoid損失関数を採用しており、ゼロショット画像分類や画像テキスト検索タスクに適しています。
画像生成テキスト Transformers
S
google
245.21k
6
Blip2 Opt 6.7b Coco
MIT
BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキスト生成や視覚的質問応答タスクに使用されます。
画像生成テキスト Transformers 英語
B
Salesforce
216.79k
33
Trocr Base Handwritten
MIT
TrOCRは、手書きテキスト認識に特化したTransformerベースの光学式文字認識モデルです。
画像生成テキスト Transformers
T
microsoft
206.74k
405
Moondream2
Apache-2.0
Moondreamは軽量ビジュアル言語モデルで、効率的な全プラットフォーム実行のために設計されています。
画像生成テキスト
M
vikhyatk
184.93k
1,120
Kosmos 2 Patch14 224
MIT
Kosmos-2はマルチモーダル大規模言語モデルで、画像に関連するテキスト記述を理解・生成し、テキストと画像領域の関連付けを実現します。
画像生成テキスト Transformers
K
microsoft
171.99k
162
Donut Base Finetuned Docvqa
MIT
DonutはOCRを必要としない文書理解Transformerモデルで、DocVQAデータセットでファインチューニングされており、画像から直接テキスト情報を抽出・理解できます。
画像生成テキスト Transformers
D
naver-clova-ix
167.80k
231
Biomedclip PubMedBERT 256 Vit Base Patch16 224
MIT
BiomedCLIPは、PMC-15Mデータセットで対照学習により事前学習された生物医学視覚言語基盤モデルで、クロスモーダル検索、画像分類、視覚的質問応答などのタスクをサポートします。
画像生成テキスト 英語
B
microsoft
137.39k
296
Donut Base Finetuned Rvlcdip
MIT
DonutはOCRを必要としないドキュメント理解Transformerモデルで、ビジュアルエンコーダーとテキストデコーダーを組み合わせてドキュメント画像を処理します。
画像生成テキスト Transformers
D
naver-clova-ix
125.36k
13
Minicpm V 2 6 Int4
MiniCPM-V 2.6はマルチモーダルな視覚言語モデルで、画像テキストからテキストへの変換をサポートし、多言語処理能力を備えています。
画像生成テキスト Transformers その他
M
openbmb
122.58k
79
Blip2 Flan T5 Xl
MIT
BLIP-2はFlan T5-xlを基にした視覚言語モデルで、画像エンコーダーと大規模言語モデルの重みを凍結した状態で事前学習を行い、画像キャプション生成や視覚的質問応答などのタスクをサポートします。
画像生成テキスト Transformers 英語
B
Salesforce
91.77k
68
Minicpm V 2 6
MiniCPM-Vはモバイル端末向けのGPT-4Vレベルのマルチモーダル大規模言語モデルで、単一画像、複数画像、動画の理解をサポートし、視覚、光学文字認識などの機能を備えています。
画像生成テキスト Transformers その他
M
openbmb
91.52k
969
H2ovl Mississippi 2b
Apache-2.0
H2OVL-Mississippi-2BはH2O.aiが開発した高性能な汎用視覚言語モデルで、幅広いマルチモーダルタスクを処理できます。このモデルは20億のパラメータを持ち、画像キャプション生成、視覚的質問応答(VQA)、文書理解などのタスクで優れた性能を発揮します。
画像生成テキスト Transformers 英語
H
h2oai
91.28k
34
Clip Flant5 Xxl
Apache-2.0
google/flan-t5-xxlをベースに微調整されたビジュアル言語生成モデルで、画像テキスト検索タスク向けに設計されています。
画像生成テキスト Transformers 英語
C
zhiqiulin
86.23k
2
Florence 2 SD3 Captioner
Apache-2.0
Florence-2-SD3-Captioner は Florence-2 アーキテクチャに基づく画像キャプション生成モデルで、高品質な画像説明テキストを生成するために特別に設計されています。
画像生成テキスト Transformers 複数言語対応
F
gokaygokay
80.06k
34
H2ovl Mississippi 800m
Apache-2.0
H2O.aiが開発した8億パラメータの視覚言語モデルで、OCRとドキュメント理解に優れた性能を発揮
画像生成テキスト Transformers 英語
H
h2oai
77.67k
33
Moondream1
16億パラメータのマルチモーダルモデル、SigLIPとPhi-1.5技術アーキテクチャを融合、画像理解と質問応答タスクをサポート
画像生成テキスト Transformers 英語
M
vikhyatk
70.48k
487
Gemma 3 27b It Qat Q4 0 Gguf
GemmaはGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、テキストと画像の入力に対応しテキストを出力します。128Kの大規模コンテキストウィンドウと140以上の言語をサポートしています。
画像生成テキスト
G
google
69.29k
251
Smolvlm2 2.2B Instruct
Apache-2.0
SmolVLM2-2.2Bは、動画コンテンツ分析のために設計された軽量マルチモーダルモデルで、動画、画像、テキスト入力を処理しテキスト出力を生成できます。
画像生成テキスト Transformers 英語
S
HuggingFaceTB
62.56k
164
Pix2struct Tiny Random
MIT
これはMITライセンスに基づく画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換できます。
画像生成テキスト Transformers
P
fxmarty
60.87k
2
Florence 2 Base Ft
MIT
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚と言語タスクを処理します。
画像生成テキスト Transformers
F
microsoft
56.78k
110
Gemma 3 4b Pt
GemmaはGoogleが提供する一連の軽量で最先端のオープンモデルで、Geminiモデルの作成と同じ研究と技術に基づいて構築されています。
画像生成テキスト Transformers
G
google
55.03k
68
Gemma 3 12b Pt
GemmaはGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、Geminiと同じ技術を基に構築されており、テキストと画像の入力をサポートし、テキスト出力を生成します。
画像生成テキスト Transformers
G
google
54.36k
46
Chexpert Mimic Cxr Findings Baseline
MIT
これはVisionEncoderDecoderアーキテクチャに基づく医療画像レポート生成モデルで、胸部X線画像から放射線学レポートテキストを生成するために特別に設計されています。
画像生成テキスト Transformers 英語
C
IAMJB
53.27k
1
Chexpert Mimic Cxr Impression Baseline
MIT
これは胸部X線画像に基づくテキスト生成モデルで、医学画像から放射線学的所見レポートを生成できます。
画像生成テキスト Transformers 英語
C
IAMJB
52.87k
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase