V

Vit Gpt2 Image Captioning COCO FineTuned

Developed by ashok2216
視覚Transformer(ViT)とGPT-2を組み合わせた画像キャプション生成モデルで、COCOデータセットでファインチューニングされており、画像内容に基づいて記述テキストを生成できます。
Downloads 36
Release Time : 11/12/2024

Model Overview

このモデルは、画像特徴抽出用の視覚Transformer(ViT)とテキスト生成用のGPT-2を組み合わせており、画像から記述テキストを生成できます。

Model Features

視覚Transformer(ViT)エンコーダー
強力な画像特徴抽出能力を備え、画像内の物体とシーンを識別できます。
GPT-2言語モデル
画像特徴に基づいて文法正しく意味的に正確な記述テキストを生成します。
COCOデータセットファインチューニング
多様なアノテーションを含むCOCOデータセットでファインチューニングされており、様々な画像キャプションシーンに適用可能です。

Model Capabilities

画像特徴抽出
テキスト生成
画像キャプション生成

Use Cases

画像キャプション
画像自動タグ付け
画像に記述テキストを生成し、画像検索やコンテンツ管理などのシーンで使用できます。
文法正しく意味的に正確な記述を生成します。
視覚障害者支援
画像内容をテキスト記述に変換し、視覚障害者が画像内容を理解するのを支援します。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase