V

Video Llava

由AnasMohamed開發
基於Vision Transformer架構的大規模視覺語言模型,支持圖像與文本的跨模態理解
下載量 194
發布時間 : 6/14/2024

模型概述

該模型是CLIP系列的一個變體,使用ViT-Large架構和336x336像素輸入尺寸,能夠理解圖像內容並將其與文本描述關聯

模型特點

大規模預訓練
在大量圖像-文本對上進行預訓練,學習豐富的視覺概念表示
跨模態理解
能夠同時處理和理解視覺和文本信息,實現圖像與文本的語義對齊
零樣本能力
無需特定任務微調即可執行多種視覺理解任務

模型能力

圖像分類
圖像-文本匹配
跨模態檢索
視覺問答
圖像描述生成

使用案例

內容檢索
基於文本的圖像搜索
使用自然語言描述查找相關圖像
內容審核
違規內容檢測
識別與特定文本描述不符的圖像內容
輔助創作
圖像標註
自動生成圖像的文本描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase