C

Cogflorence 2 Large Freeze

由thwri開發
這是microsoft/Florence-2-large模型的微調版本,在Ejafa/ye-pop數據集的38,000張圖像子集上訓練,使用CogVLM2生成標註,專注於圖像轉文本任務。
下載量 419
發布時間 : 7/4/2024

模型概述

該模型是一個視覺語言模型,能夠根據輸入的圖像生成詳細的文本描述。它在Florence-2-large基礎上微調,增強了圖像標註能力。

模型特點

高質量圖像標註
能夠生成詳細、準確的圖像描述,捕捉圖像中的關鍵元素和細節
大規模數據微調
在38,000張多樣化圖像上訓練,提升了模型的泛化能力
視覺編碼器凍結
訓練時保持視覺編碼器參數不變,專注於文本生成能力的優化

模型能力

圖像理解
詳細圖像描述生成
多元素場景分析

使用案例

內容生成
圖像自動標註
為圖像庫中的圖片自動生成詳細描述
提高圖像檢索效率和可訪問性
輔助技術
視覺輔助
為視障人士提供圖像內容的詳細語音描述
增強數字內容的可訪問性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase