G

Git Large R Coco

microsoftによって開発
GITはTransformerベースの生成的画像テキストモデルで、画像から記述的なテキストを生成できます。
ダウンロード数 86
リリース時間 : 1/22/2023

モデル概要

GITモデルはCLIP画像トークンとテキストトークンを組み合わせ、Transformerデコーダーアーキテクチャを使用し、大量の画像-テキストペアで訓練され、画像キャプション生成や視覚的質問応答などのタスクを実行できます。

モデル特徴

双方向画像アテンション
モデルは画像パッチトークンに完全にアクセスでき、双方向アテンションメカニズムを使用して画像情報を処理します。
因果的テキスト生成
テキスト生成時には因果的アテンションマスクを使用し、以前のテキストトークンのみにアクセス可能で、一貫性のあるテキスト記述を生成します。
マルチタスク能力
画像キャプション生成に限定されず、視覚的質問応答や画像分類など様々な視覚言語タスクに使用可能です。

モデル能力

画像キャプション生成
視覚的質問応答(VQA)
画像分類
動画キャプション生成

使用事例

コンテンツ生成
自動画像タグ付け
ソーシャルメディアやコンテンツ管理システムの画像に自動的に記述テキストを生成
コンテンツのアクセシビリティとSEOの向上
支援技術
視覚支援
視覚障害者向けに画像内容の音声説明を提供
デジタルコンテンツのアクセシビリティ向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase