G

Git Large

Developed by microsoft
GITはCLIP画像トークンとテキストトークンの双条件トランスフォーマーデコーダーで、画像からテキストへの生成タスクに使用されます
Downloads 1,404
Release Time : 1/2/2023

Model Overview

GITは生成的画像からテキストへのトランスフォーマーモデルで、画像キャプション生成、視覚的質問応答、画像分類などのタスクを実行できます。双方向アテンションで画像トークンを処理し、因果的アテンションでテキストトークンを処理します。

Model Features

双モーダル処理
画像とテキストトークンを同時に処理し、異なるアテンション機構を使用
マルチタスク能力
単一モデルで複数の視覚言語タスクを実行可能
大規模事前学習
2000万の画像テキストペアで訓練(大規模版は8億データで訓練)

Model Capabilities

画像キャプション生成
視覚的質問応答
画像分類
動画キャプション生成
動画質問応答

Use Cases

コンテンツ生成
自動画像説明
画像の自然言語説明を生成
画像内容を正確に記述するテキストを生成可能
視覚的理解
画像質問応答システム
画像内容に関する自然言語質問に回答
画像内容に関する様々な質問に正しく回答可能
コンテンツ分類
ゼロショット画像分類
カテゴリテキストを生成して画像を分類
特定の訓練なしで分類可能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase