# 視覚言語事前学習

Sail Clip Hendrix 10epochs
openai/clip-vit-large-patch14をベースにファインチューニングした視覚言語モデル、10エポックの訓練を経て
テキスト生成画像 Transformers
S
cringgaard
49
0
Minivla Vq Bridge Prismatic
MIT
MiniVLAは、より小型でありながら高性能な視覚言語アクションモデルで、Prismatic VLMsプロジェクトコードベースと互換性があります。
画像生成テキスト Transformers 英語
M
Stanford-ILIAD
22
0
Zcabnzh Bp
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成や視覚的質問応答などのタスクに優れており、革新的なデータフィルタリングメカニズムにより性能を向上させています
画像生成テキスト Transformers
Z
nanxiz
19
0
Image Captioning With Blip
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成などのタスクに優れており、条件付きおよび無条件のテキスト生成をサポートします
画像生成テキスト Transformers
I
Vidensogende
16
0
Vilt Finetuned 200
Apache-2.0
ViLTアーキテクチャに基づく視覚言語モデルで、特定タスク向けにファインチューニング済み
テキスト生成画像 Transformers
V
Atul8827
35
0
Llava V1.5 Mlp2x 336px Pretrain Vicuna 7b V1.5
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTで生成されたマルチモーダル指示追従データでトレーニングされています。
テキスト生成画像 Transformers
L
liuhaotian
173
17
OTTER MPT7B Init
MIT
OTTER-MPT7B-InitはOtterモデルのトレーニング初期化用の重みで、Openflamingoから直接変換されたものです。
テキスト生成画像 Transformers
O
luodian
53
3
Blip Test
Bsd-3-clause
Salesforce/blip-image-captioning-baseをファインチューニングした画像キャプション生成モデル
画像生成テキスト Transformers
B
mooncakex
15
0
Pix2struct Large
Apache-2.0
Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像-テキストペアで訓練され、様々な視覚言語タスクに適用可能
画像生成テキスト Transformers 複数言語対応
P
google
6,601
34
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase