G

Git Large Textcaps

microsoftによって開発
GITは、画像キャプション生成や視覚的質問応答などのタスクのための、Transformerベースのデュアルコンディションデコーダーモ型です。
ダウンロード数 1,749
リリース時間 : 1/2/2023

モデル概要

GITモデルは、CLIP画像トークンとテキストトークンのデュアルコンディションTransformerデコーダーを使用して、画像キャプション生成、視覚的質問応答、画像分類などのタスクを実行できます。

モデル特徴

デュアルコンディションTransformerデコーダー
CLIP画像トークンとテキストトークンを組み合わせ、効率的な画像からテキストへの変換を実現します。
マルチタスクサポート
画像キャプション生成、視覚的質問応答、画像分類など、複数のタスクを実行できます。
大規模事前学習
2000万の画像-テキストペアでトレーニングされ、TextCapsでファインチューニングされています。

モデル能力

画像キャプション生成
視覚的質問応答
画像分類

使用事例

画像理解
画像キャプション生成
入力画像に対して詳細なテキスト説明を生成します。
視覚的質問応答
画像内容に関する自然言語の質問に答えます。
画像分類
テキストカテゴリ生成
画像に基づいて対応するテキストカテゴリを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase