Git Large
GITはCLIP画像トークンとテキストトークンの双条件トランスフォーマーデコーダーで、画像からテキストへの生成タスクに使用されます
画像生成テキスト
Transformers Supports Multiple LanguagesOpen Source License:MIT#画像キャプション生成#視覚的質問応答#マルチモーダルトランスフォーマー

Downloads 1,404
Release Time : 1/2/2023
Model Overview
GITは生成的画像からテキストへのトランスフォーマーモデルで、画像キャプション生成、視覚的質問応答、画像分類などのタスクを実行できます。双方向アテンションで画像トークンを処理し、因果的アテンションでテキストトークンを処理します。
Model Features
双モーダル処理
画像とテキストトークンを同時に処理し、異なるアテンション機構を使用
マルチタスク能力
単一モデルで複数の視覚言語タスクを実行可能
大規模事前学習
2000万の画像テキストペアで訓練(大規模版は8億データで訓練)
Model Capabilities
画像キャプション生成
視覚的質問応答
画像分類
動画キャプション生成
動画質問応答
Use Cases
コンテンツ生成
自動画像説明
画像の自然言語説明を生成
画像内容を正確に記述するテキストを生成可能
視覚的理解
画像質問応答システム
画像内容に関する自然言語質問に回答
画像内容に関する様々な質問に正しく回答可能
コンテンツ分類
ゼロショット画像分類
カテゴリテキストを生成して画像を分類
特定の訓練なしで分類可能
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98