開源 Donut（Horus - OCR）圖像轉文本模型，輕鬆從圖像中提取和生成文本

首頁

Horus OCR

由TeeA開發

Donut 是一個基於 Transformer 的圖像轉文本模型，能夠從圖像中提取和生成文本內容。

圖像生成文本

Transformers

#圖像轉文本 #文檔理解 #視覺問答

下載量 21

發布時間 : 6/12/2024

模型概述

Donut 是一個視覺語言模型，主要用於從圖像中提取文本信息，適用於文檔理解、表格識別等任務。

模型特點

圖像轉文本

能夠從圖像中提取和生成文本內容，適用於文檔和表格識別。

基於 Transformer

採用 Transformer 架構，具有強大的視覺和語言處理能力。

模型能力

圖像轉文本

文檔理解

表格識別

使用案例

文檔處理

處方識別

從醫療處方圖像中提取文本信息。

準確提取處方中的藥品名稱和劑量。

表格識別

表格數據提取

從圖像中的表格提取結構化數據。

生成可編輯的表格格式數據。

🚀 Transformers圖像轉文本模型

本模型基於🤗 Transformers庫開發，利用Donut技術實現圖像轉文本功能，在視覺領域有廣泛應用。

🚀 快速開始

使用以下代碼開始使用該模型：

# 此處應替換為實際可運行的代碼
# 由於原文未提供，這裡暫時佔位
# 請根據實際情況補充代碼

📚 詳細文檔

模型詳情

模型描述

這是一個已發佈在🤗 Hub上的Transformers模型的模型卡片，此模型卡片為自動生成。

屬性	詳情
開發者	待補充更多信息
資助方（可選）	待補充更多信息
共享方（可選）	待補充更多信息
模型類型	待補充更多信息
語言（NLP）	待補充更多信息
許可證	待補充更多信息
微調基礎模型（可選）	待補充更多信息

模型來源（可選）

倉庫：待補充更多信息
論文（可選）：待補充更多信息
演示（可選）：待補充更多信息

使用方式

直接使用

此部分介紹模型在不進行微調或集成到更大生態系統/應用中的使用方式。待補充更多信息。

下游使用（可選）

此部分介紹模型在針對特定任務進行微調後，或集成到更大生態系統/應用中的使用方式。待補充更多信息。

超出適用範圍的使用

此部分說明模型的誤用、惡意使用情況，以及模型效果不佳的使用場景。待補充更多信息。

偏差、風險和侷限性

此部分旨在傳達技術和社會技術方面的侷限性。待補充更多信息。

建議

用戶（包括直接用戶和下游用戶）應瞭解該模型的風險、偏差和侷限性。如需進一步建議，還需補充更多信息。

訓練詳情

訓練數據

此部分應鏈接到數據集卡片，可能還需簡要介紹訓練數據的相關信息，以及數據預處理或額外過濾的文檔。待補充更多信息。

訓練過程

預處理（可選）

待補充更多信息。

訓練超參數

訓練機制：待補充更多信息（如fp32、fp16混合精度、bf16混合精度、bf16非混合精度、fp16非混合精度、fp8混合精度）

速度、規模、時間（可選）

此部分提供有關吞吐量、開始/結束時間、檢查點大小（如適用）等信息。待補充更多信息。

評估

測試數據、因素和指標

測試數據

此部分應儘可能鏈接到數據集卡片。待補充更多信息。

因素

這些是評估所依據的分類標準，例如子群體或領域。待補充更多信息。

指標

這些是所使用的評估指標，理想情況下應說明使用原因。待補充更多信息。

結果

待補充更多信息。

總結

待補充更多信息。

模型審查（可選）

此部分介紹與模型可解釋性相關的工作。待補充更多信息。

環境影響

可使用Lacoste等人（2019）中提出的機器學習影響計算器來估算碳排放。

屬性	詳情
硬件類型	待補充更多信息
使用時長	待補充更多信息
雲服務提供商	待補充更多信息
計算區域	待補充更多信息
碳排放	待補充更多信息