I

Internvl 14B 224px

由OpenGVLab開發
InternVL-14B-224px 是一個14B參數量的視覺語言基礎模型,支持多種視覺語言任務。
下載量 521
發布時間 : 12/22/2023

模型概述

該模型是一個強大的視覺語言基礎模型,支持零樣本圖像/視頻分類、圖文/視頻檢索、圖像描述生成等多種任務。

模型特點

多任務支持
支持零樣本圖像/視頻分類、圖文/視頻檢索、圖像描述生成等多種視覺語言任務。
多語言支持
能夠處理英文、中文、日文等多種語言的文本輸入。
高性能
在多個基準測試中表現出色,具有強大的零樣本性能。

模型能力

零樣本圖像分類
零樣本視頻分類
圖文檢索
視頻檢索
圖像描述生成

使用案例

內容理解
圖像分類
無需微調即可對圖像進行分類
在多個數據集上表現出色
圖像描述生成
為輸入圖像生成自然語言描述
生成準確、流暢的描述
信息檢索
跨模態檢索
根據文本檢索相關圖像或視頻
檢索準確率高
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase