Florence-2-DocVQA開源模型 - 免費部署助力圖像文本理解任務

首頁

Florence 2 DocVQA

由impactframes開發

基於微軟Florence-2模型使用Docmatix數據集（5%數據量）微調1天的版本，適用於圖像文本理解任務

文本生成圖像

Transformers

#文檔圖像理解 #小樣本微調 #多模態處理

下載量 30

發布時間 : 10/4/2024

模型概述

該模型是Florence-2-large-ft的微調版本，專注於圖像與文本的聯合理解任務，通過特定領域數據增強性能

模型特點

領域適應微調

使用Docmatix數據集進行針對性微調，提升特定領域表現

多模態理解

能夠同時處理圖像和文本輸入，實現跨模態理解

模型能力

圖像文本理解

跨模態推理

視覺問答

使用案例

文檔理解

文檔圖像解析

從掃描文檔圖像中提取結構化信息

教育技術

教材內容分析

分析教材中的圖文內容並生成摘要

🚀 微軟Florence - 2模型

這是微軟的Florence - 2模型，使用Docmatix（佔數據的5%）訓練了1天，學習率為1e - 6。該模型能實現圖像文本到文本的轉換。此微調代碼可在這裡找到。還有一篇博客解釋瞭如何微調Florence：如何微調Florence2

🚀 快速開始

使用以下代碼開始使用該模型：

# 此處應補充實際使用代碼

📚 詳細文檔

模型詳情

模型描述

這是一個🤗 Transformers模型的模型卡片，已被推送到Hugging Face Hub，它是自動生成的。

開發者： Andi Marafioti
資助方： Hugging Face 🤗
語言（NLP）： 英語
許可證： MIT
微調基礎模型： Florence - 2 - large - ft

模型來源

倉庫： [待補充更多信息]
演示： [待補充更多信息]

模型用途

直接使用

[待補充更多信息]

下游使用

[待補充更多信息]

超出適用範圍的使用

[待補充更多信息]

偏差、風險和侷限性

[待補充更多信息]

建議

直接用戶和下游用戶都應該瞭解該模型的風險、偏差和侷限性。如需進一步建議，還需更多信息。

訓練詳情

訓練數據

[待補充更多信息]

訓練過程

預處理

[待補充更多信息]

訓練超參數

訓練機制： [待補充更多信息]

速度、大小、時間

[待補充更多信息]

評估

測試數據、因素和指標

測試數據

[待補充更多信息]

因素

[待補充更多信息]

指標

[待補充更多信息]

結果

[待補充更多信息]

模型審查

[待補充更多信息]

環境影響

可以使用 Lacoste等人（2019）提出的機器學習影響計算器來估算碳排放。

硬件類型： [待補充更多信息]
使用時長： [待補充更多信息]
雲服務提供商： [待補充更多信息]
計算區域： [待補充更多信息]
碳排放： [待補充更多信息]

技術規格

模型架構和目標

[待補充更多信息]

計算基礎設施

硬件

[待補充更多信息]

軟件

[待補充更多信息]

引用

BibTeX

[待補充更多信息]

APA

[待補充更多信息]

術語表

[待補充更多信息]

模型卡片作者

[待補充更多信息]

模型卡片聯繫方式

[待補充更多信息]

📄 許可證

該模型使用MIT許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫