P

Promptcap Coco Vqa

tifa-benchmarkによって開発
PromptCapは自然言語の指示で制御可能な画像記述生成モデルで、視覚的質問応答と一般的な記述生成タスクをサポートします。
ダウンロード数 121
リリース時間 : 1/23/2023

モデル概要

PromptCapはプロンプト誘導のタスク認識型画像記述生成モデルで、ユーザーが提供する自然言語の指示に基づいて画像記述を生成し、GPT-3などの大規模言語モデルとの連携使用をサポートします。

モデル特徴

プロンプト誘導制御
自然言語の指示で記述生成を制御可能で、特定の質問誘導と一般的な記述生成をサポート
軽量級視覚プラグイン
BLIP-2よりも高速で、GPT-3、ChatGPTなどの大規模言語モデルとの連携に適しています
OCRサポート
OCRテキスト入力を含む画像記述生成タスクを処理可能
オープンドメイン質問応答
従来のVQAモデルとは異なり、任意のテキストQAモデルと組み合わせたオープンドメイン質問応答をサポート

モデル能力

画像記述生成
視覚的質問応答
マルチモーダル理解
OCRテキスト処理
オープンドメイン質問応答

使用事例

視覚的質問応答
知識ベース視覚的質問応答
GPT-3と組み合わせて外部知識を必要とする視覚的質問に回答
OK-VQAで60.4%、A-OKVQAで59.6%のSOTA性能を達成
多肢選択式質問応答
与えられた選択肢に基づく多肢選択式視覚的質問応答をサポート
画像記述生成
一般的な画像記述
画像の一般的な記述を生成
COCO記述生成タスクで150 CIDErのSOTA性能を達成
タスク認識型記述
特定の質問に基づいて焦点を絞った画像記述を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase