G

Git Large R Coco

由microsoft開發
GIT是一個基於Transformer的生成式圖像到文本模型,能夠根據圖像生成描述性文本。
下載量 86
發布時間 : 1/22/2023

模型概述

GIT模型通過結合CLIP圖像標記和文本標記,使用Transformer解碼器架構,在大量圖像-文本對上進行訓練,能夠執行圖像描述生成、視覺問答等任務。

模型特點

雙向圖像注意力
模型對圖像塊標記具有完全訪問權限,使用雙向注意力機制處理圖像信息。
因果文本生成
在生成文本時使用因果注意力掩碼,僅能訪問之前的文本標記,確保生成連貫的文本描述。
多任務能力
不僅限於圖像描述生成,還可用於視覺問答和圖像分類等多種視覺語言任務。

模型能力

圖像描述生成
視覺問答(VQA)
圖像分類
視頻描述生成

使用案例

內容生成
自動圖像標註
為社交媒體或內容管理系統中的圖像自動生成描述性文本
提高內容可訪問性和搜索引擎優化
輔助技術
視覺輔助
為視障人士提供圖像內容的語音描述
增強數字內容可訪問性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase