G

Git Large Msrvtt Qa

由microsoft開發
GIT是一種基於CLIP圖像標記和文本標記的雙條件Transformer解碼器,專為MSRVTT-QA任務微調。
下載量 108
發布時間 : 1/2/2023

模型概述

GIT模型通過教師強制方式在大量圖像-文本對上訓練,能夠預測下一個文本標記,適用於圖像與視頻描述生成、視覺問答及圖像分類等任務。

模型特點

雙條件Transformer解碼器
結合CLIP圖像標記和文本標記,支持雙向注意力機制和因果注意力掩碼。
多任務適應性
適用於圖像與視頻描述生成、視覺問答及圖像分類等多種任務。
大規模預訓練
基於1000萬圖像-文本對訓練,並在MSRVTT-QA上微調。

模型能力

圖像描述生成
視頻描述生成
視覺問答
圖像分類

使用案例

視頻理解
視頻問答
基於視頻內容回答相關問題。
在MSRVTT-QA任務上表現優異。
圖像理解
圖像描述生成
為圖像生成自然語言描述。
圖像分類
通過生成文本類別對圖像進行分類。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase