Finedefics開源多模態大語言模型 - 免費部署助力細粒度視覺識別

Finedefics

由StevenHH2000開發

Finedefics 是一個開源的多模態大語言模型（MLLM），通過融入對象的信息化屬性描述，增強了細粒度視覺識別（FGVR）能力。

下載量 82

發布時間 : 2/12/2025

模型概述

Finedefics 是一個基於 Transformer 架構的自迴歸語言模型，主要用於細粒度多模態大語言模型的研究，適用於計算機視覺、自然語言處理等領域。

細粒度視覺識別增強

通過在訓練階段融入對象的信息化屬性描述，顯著提升了模型的細粒度視覺識別能力。

多模態能力

結合視覺和文本信息，支持圖像到文本的轉換和理解。

開源模型

基於開源模型 Idefics2-8b 構建，遵循 Apache 2.0 許可證，便於研究和應用。

細粒度視覺識別

多模態理解

圖像到文本轉換

計算機視覺研究

細粒度物體分類

用於識別和分類細粒度物體，如不同品種的狗、鳥類等。

自然語言處理

多模態問答

結合圖像和文本信息進行問答任務。

屬性	詳情
模型類型	Finedefics是一個開源的多模態大語言模型（MLLM），它是自迴歸語言模型，基於Transformer架構。基礎MLLM為HuggingFaceM4/idefics2 - 8b。
更多信息的論文或資源	OpenReview: https://openreview.net/forum?id=p3NKpom1VL Arxiv: https://arxiv.org/abs/2501.15140