C

Cogflorence 2.1 Large

由thwri開發
該模型是microsoft/Florence-2-large的微調版本,在Ejafa/ye-pop數據集的4萬張圖像子集上進行了訓練,標註由THUDM/cogvlm2-llama3-chat-19B生成,專注於圖像轉文本任務。
下載量 2,541
發布時間 : 7/27/2024

模型概述

該模型主要用於圖像轉文本任務,能夠生成詳細的圖像描述。通過在大規模圖像數據集上的微調,提升了模型的標註能力。

模型特點

高質量圖像標註
能夠生成詳細且準確的圖像描述,適用於各種主題的圖像。
大規模數據集訓練
在Ejafa/ye-pop數據集的4萬張圖像子集上進行了微調,提升了模型的泛化能力。
凍結視覺編碼器
訓練期間視覺編碼器被凍結,保持了原始模型的視覺特徵提取能力。

模型能力

圖像描述生成
多主題圖像分析
高質量文本輸出

使用案例

圖像標註
詳細圖像描述
為圖像生成詳細的文本描述,適用於內容管理和檢索。
生成包含顏色、形狀、背景等細節的描述文本。
內容管理
自動化圖像標籤
為大量圖像自動生成標籤,提高內容管理效率。
快速生成準確的圖像標籤,減少人工標註工作量。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase