# 画像キャプション生成

Blip Gqa Ft
MIT
Salesforce/blip2-opt-2.7bをファインチューニングした視覚言語モデルで、画像質問応答タスク用
テキスト生成画像 Transformers
B
phucd
29
0
Blip Custom Captioning
Bsd-3-clause
BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成などの視覚-言語タスクに優れています
画像生成テキスト
B
hiteshsatwani
78
0
Gemma 3 4b It Qat 4bit
その他
Gemma 3 4B IT QAT 4bit は、量子化認識トレーニング(QAT)を経た4ビット量子化大規模言語モデルで、Gemma 3アーキテクチャに基づき、MLXフレームワーク向けに最適化されています。
画像生成テキスト Transformers その他
G
mlx-community
607
1
My Model
MIT
GITはトランスフォーマーベースの画像からテキストを生成するモデルで、入力画像に基づいて記述的なテキストを生成できます。
画像生成テキスト PyTorch 複数言語対応
M
anoushhka
87
0
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
このモデルはQwen2-VL-7B-Captioner-RelaxedをGGUF形式に変換したバージョンで、画像からテキストへのタスクに最適化されており、llama.cppやKoboldcppなどのツールで実行可能です。
画像生成テキスト 英語
Q
r3b31
321
1
Llama Joycaption Alpha Two Hf Llava FP8 Dynamic
MIT
これはfancyfeastが開発したLlama JoyCaption Alpha TwoモデルをFP8圧縮したバージョンで、llm-compressorツールを使用して実装され、vllmフレームワークと互換性があります。
画像生成テキスト 英語
L
JKCHSTR
248
1
Blip Image Captioning Large
Bsd-3-clause
COCOデータセットで事前学習された視覚言語モデルで、正確な画像キャプション生成に優れています
画像生成テキスト
B
drgary
23
1
Florence 2 Base Castollux V0.4
microsoft/Florence-2-baseをファインチューニングした画像キャプション生成モデルで、記述品質とフォーマットの向上に焦点
画像生成テキスト Transformers 英語
F
PJMixers-Images
23
1
Llava Llama3
LLaVA-Llama3はLlama-3をベースとしたマルチモーダルモデルで、画像とテキストの共同処理をサポートします。
画像生成テキスト
L
chatpig
360
1
Qwen2 VL 7B Captioner Relaxed Q4 K M GGUF
Apache-2.0
これはQwen2-VL-7B-Captioner-Relaxedモデルを変換したGGUF形式のモデルで、画像からテキストへのタスクに特化しています。
画像生成テキスト 英語
Q
alecccdd
88
1
Vitucano 1b5 V1
Apache-2.0
ViTucanoはポルトガル語で事前学習された視覚アシスタントで、視覚理解と言語能力を統合し、マルチモーダルタスクに適しています。
画像生成テキスト Transformers その他
V
TucanoBR
37
2
Microsoft Git Base
MIT
GITはTransformerベースの生成的画像テキスト変換モデルで、視覚コンテンツをテキスト記述に変換できます。
画像生成テキスト 複数言語対応
M
seckmaster
18
0
BLIP Radiology Model
BLIPはTransformerベースの画像キャプション生成モデルで、入力画像に対する自然言語の説明を生成できます。
画像生成テキスト Transformers
B
daliavanilla
16
0
Vit GPT2 Image Captioning
ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対して自然言語の説明を生成できます。
画像生成テキスト Transformers
V
motheecreator
149
0
Vit GPT2 Image Captioning
ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対して自然言語の説明を生成できます。
画像生成テキスト Transformers
V
mo-thecreator
17
0
Vit GPT2 Image Captioning Model
ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像を記述テキストに変換可能
画像生成テキスト Transformers
V
motheecreator
142
0
Llama 3.2 11B Vision Instruct Nf4
meta-llama/Llama-3.2-11B-Vision-Instructを基にした4ビット量子化バージョンで、画像理解とテキスト生成タスクをサポート
画像生成テキスト Transformers
L
SeanScripts
658
12
Tvl Mini 0.1
Apache-2.0
これはロシア語対応のQwen2-VL-2BモデルにLORA微調整を施したバージョンで、マルチモーダルタスクをサポートします。
画像生成テキスト Transformers 複数言語対応
T
2Vasabi
23
2
Qwen2 Vl Tiny Random
これはQwen2-VL-7B-Instruct設定に基づきランダム初期化された小型デバッグモデルで、視覚言語タスク用です
画像生成テキスト Transformers
Q
yujiepan
27
1
Peacock
その他
ピーコックモデルはInstructBLIPアーキテクチャに基づくアラビア語マルチモーダル大規模言語モデルで、言語モデルにはAraLLaMAを採用しています。
画像生成テキスト PyTorch アラビア語
P
UBC-NLP
73
1
Idefics3 8B Llama3
Apache-2.0
Idefics3はオープンソースのマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を処理し、テキスト出力を生成できます。OCR、ドキュメント理解、視覚的推論において顕著な改善が見られます。
画像生成テキスト Transformers 英語
I
HuggingFaceM4
45.86k
277
Llama 3 EZO VLM 1
Llama-3-8B-Instructを基にした日本語視覚言語モデル、追加の事前学習と命令チューニングにより日本語能力を強化
画像生成テキスト 日本語
L
AXCXEPT
19
7
Zcabnzh Bp
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成や視覚的質問応答などのタスクに優れており、革新的なデータフィルタリングメカニズムにより性能を向上させています
画像生成テキスト Transformers
Z
nanxiz
19
0
Florence 2 Large Ft
MIT
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのパラダイムを用いて様々な視覚および視覚-言語タスクを処理します。
画像生成テキスト Transformers
F
zhangfaen
14
0
Florence 2 SD3 Captioner
Apache-2.0
Florence-2-SD3-Captioner は Florence-2 アーキテクチャに基づく画像キャプション生成モデルで、高品質な画像説明テキストを生成するために特別に設計されています。
画像生成テキスト Transformers 複数言語対応
F
gokaygokay
80.06k
34
Florence 2 Large Ft
MIT
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで様々な視覚と言語タスクを処理します。
画像生成テキスト Transformers
F
andito
93
4
Test Push
Apache-2.0
distilvitはVIT画像エンコーダーと蒸留版GPT-2テキストデコーダーを基にした画像からテキストへのモデルで、画像のテキスト説明を生成できます。
画像生成テキスト Transformers
T
tarekziade
17
0
Florence 2 Base Ft
MIT
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチにより幅広い視覚・視覚言語タスクを処理します。
画像生成テキスト Transformers
F
lodestones
14
0
Vit Base Patch16 224 Distilgpt2
Apache-2.0
DistilViTは、視覚Transformer(ViT)と蒸留版GPT-2に基づく画像キャプション生成モデルで、画像をテキスト記述に変換できます。
画像生成テキスト Transformers
V
tarekziade
17
0
Convllava JP 1.3b 1280
ConvLLaVA-JPは高解像度入力に対応した日本語視覚言語モデルで、入力画像について対話が可能です。
画像生成テキスト Transformers 日本語
C
toshi456
31
1
Paligemma Rich Captions
Apache-2.0
PaliGemma-3bモデルをDocCIデータセットでファインチューニングした画像キャプション生成モデル。200-350文字の詳細な説明文を生成可能で、幻覚現象を低減
画像生成テキスト Transformers 英語
P
gokaygokay
66
9
Blip Image Captioning Base Bf16
MIT
このモデルはSalesforce/blip-image-captioning-baseの量子化バージョンで、浮動小数点精度をbfloat16に下げることで、メモリ使用量を50%削減し、画像からテキスト生成タスクに適しています。
画像生成テキスト Transformers
B
gospacedev
20
1
Heron Chat Git Ja Stablelm Base 7b V1
入力画像について対話可能なビジュアル言語モデルで、日本語インタラクションをサポート
画像生成テキスト Transformers 日本語
H
turing-motors
54
2
Uform Gen2 Dpo
Apache-2.0
UForm-Gen2-dpoは、直接選好最適化(DPO)を用いてVLFeedbackおよびLLaVA-Human-Preference-10K選好データセットで画像キャプション生成と視覚的質問応答タスクに対してアライメント訓練された小型生成視覚言語モデルです。
画像生成テキスト Transformers 英語
U
unum-cloud
3,568
44
Nebula
MIT
このモデルは画像からテキストへの変換モデルで、画像のキャプション記述を生成することに特化しています。
画像生成 Transformers
N
SRDdev
17
0
Kosmos 2 Patch14 24 Dup Ms
MIT
Kosmos-2はマルチモーダル大規模言語モデルで、視覚情報と言語理解を統合し、画像からテキストへの変換や視覚的位置特定タスクを実現します。
画像生成テキスト Transformers
K
ishaangupta293
21
0
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIPはBLIP-2の視覚的指示チューニングバージョンで、視覚と言語処理能力を組み合わせ、画像とテキスト指示に基づいて応答を生成できます。
画像生成テキスト Transformers 英語
I
benferns
20
0
Uform Gen2 Qwen 500m
Apache-2.0
UForm-Genは小型の生成的視覚言語モデルで、主に画像キャプション生成と視覚的質問応答に使用されます。
画像生成テキスト Transformers 英語
U
unum-cloud
17.98k
76
Med BLIP 2 QLoRA
BLIP2はOPT-2.7Bを基にした視覚言語モデルで、視覚質問応答タスクに特化しており、画像内容を理解し関連する質問に答えることができます。
テキスト生成画像
M
NouRed
16
1
Uform Gen Chat
Apache-2.0
UForm-Gen-ChatはUForm-Genのマルチモーダルチャットファインチューニング版で、主に画像キャプション生成と視覚的質問応答タスクに使用されます。
画像生成テキスト Transformers 英語
U
unum-cloud
65
19
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase