C

Cogflorence 2.2 Large

由thwri開發
該模型是microsoft/Florence-2-large的微調版本,在Ejafa/ye-pop數據集的4萬張圖像子集上進行訓練,標註文本由THUDM/cogvlm2-llama3-chat-19B生成,適用於圖像轉文本任務。
下載量 20.64k
發布時間 : 8/23/2024

模型概述

一個經過微調的視覺-語言模型,專注於生成詳細圖像描述和標註。

模型特點

高質量圖像標註
能夠生成詳細且準確的圖像描述,捕捉圖像中的細節和情感
多階段標註處理
標註文本由CogVLM2生成後經Gemma處理,提高了表述的清晰度
優化的視覺編碼
訓練期間視覺編碼器參數保持凍結,確保視覺特徵的穩定性

模型能力

圖像描述生成
圖像內容分析
視覺場景理解
詳細圖像標註

使用案例

內容創作
圖像自動標註
為圖像庫中的圖片自動生成詳細描述
提高圖像檢索效率,增強可訪問性
輔助技術
視覺障礙輔助
為視覺障礙用戶提供詳細的圖像描述
幫助理解視覺內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase