V

Vit Swin Base 224 Gpt2 Image Captioning

Abdouによって開発
VisionEncoderDecoderアーキテクチャに基づく画像キャプション生成モデルで、Swin Transformerを視覚エンコーダー、GPT-2をデコーダーとして使用し、COCO2014データセットでファインチューニングされています
ダウンロード数 321
リリース時間 : 2/5/2023

モデル概要

このモデルは画像の英語説明を自動生成するために使用され、視覚エンコーディングとテキスト生成能力を組み合わせています

モデル特徴

ハイブリッドアーキテクチャ
Swin Transformerの視覚エンコーディング能力とGPT-2のテキスト生成能力を組み合わせています
効率的なトレーニング
COCOデータセットの60%のデータでファインチューニングされ、トレーニング時間はわずか5時間(A100 GPU)
複数指標最適化
ROUGEやBLEUなど複数のテキスト生成指標を同時に最適化しています

モデル能力

画像理解
英語説明生成
自然言語生成

使用事例

支援技術
視覚障害者支援
視覚障害ユーザー向けに画像説明を自動生成します
コンテンツ管理
自動画像タグ付け
画像ライブラリに説明タグを自動生成します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase