F

Florence 2 DocVQA

由HuggingFaceM4開發
這是微軟Florence-2模型使用Docmatix數據集(5%數據量)以1e-6學習率微調1天后的版本
下載量 3,096
發布時間 : 6/21/2024

模型概述

基於Florence-2-large-ft微調的多模態模型,擅長圖像文本到文本轉換任務

模型特點

多模態理解
能夠處理圖像和文本的聯合輸入,生成相關文本輸出
高效微調
僅使用5%的Docmatix數據集進行微調,學習率為1e-6
基於Florence-2架構
建立在微軟強大的Florence-2模型基礎上

模型能力

圖像文本理解
多模態內容生成
視覺問答

使用案例

文檔處理
文檔圖像理解
從掃描文檔圖像中提取和理解文本內容
內容生成
圖像描述生成
根據輸入圖像生成描述性文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase