V

Vit Gpt2 Image Captioning COCO FineTuned

ashok2216によって開発
視覚Transformer(ViT)とGPT-2を組み合わせた画像キャプション生成モデルで、COCOデータセットでファインチューニングされており、画像内容に基づいて記述テキストを生成できます。
ダウンロード数 36
リリース時間 : 11/12/2024

モデル概要

このモデルは、画像特徴抽出用の視覚Transformer(ViT)とテキスト生成用のGPT-2を組み合わせており、画像から記述テキストを生成できます。

モデル特徴

視覚Transformer(ViT)エンコーダー
強力な画像特徴抽出能力を備え、画像内の物体とシーンを識別できます。
GPT-2言語モデル
画像特徴に基づいて文法正しく意味的に正確な記述テキストを生成します。
COCOデータセットファインチューニング
多様なアノテーションを含むCOCOデータセットでファインチューニングされており、様々な画像キャプションシーンに適用可能です。

モデル能力

画像特徴抽出
テキスト生成
画像キャプション生成

使用事例

画像キャプション
画像自動タグ付け
画像に記述テキストを生成し、画像検索やコンテンツ管理などのシーンで使用できます。
文法正しく意味的に正確な記述を生成します。
視覚障害者支援
画像内容をテキスト記述に変換し、視覚障害者が画像内容を理解するのを支援します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase