F

Finedefics

由StevenHH2000開發
Finedefics 是一個開源的多模態大語言模型(MLLM),通過融入對象的信息化屬性描述,增強了細粒度視覺識別(FGVR)能力。
下載量 82
發布時間 : 2/12/2025

模型概述

Finedefics 是一個基於 Transformer 架構的自迴歸語言模型,主要用於細粒度多模態大語言模型的研究,適用於計算機視覺、自然語言處理等領域。

模型特點

細粒度視覺識別增強
通過在訓練階段融入對象的信息化屬性描述,顯著提升了模型的細粒度視覺識別能力。
多模態能力
結合視覺和文本信息,支持圖像到文本的轉換和理解。
開源模型
基於開源模型 Idefics2-8b 構建,遵循 Apache 2.0 許可證,便於研究和應用。

模型能力

細粒度視覺識別
多模態理解
圖像到文本轉換

使用案例

計算機視覺研究
細粒度物體分類
用於識別和分類細粒度物體,如不同品種的狗、鳥類等。
自然語言處理
多模態問答
結合圖像和文本信息進行問答任務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase