Kosmos-2.5開源多模態讀寫模型 - 免費處理圖像文本識別與結構化輸出

首頁

Kosmos 2.5

由microsoft開發

Kosmos-2.5是一款面向文本密集圖像機器閱讀的多模態讀寫模型，能夠處理圖像中的文本識別和結構化輸出。

圖像生成文本

Transformers

英語開源協議:MIT #多模態讀寫 #文本密集圖像解析 #Markdown生成

下載量 5,531

發布時間 : 5/13/2024

模型概述

Kosmos-2.5是一款多模態讀寫模型，專注於文本密集圖像的機器閱讀任務。它能夠生成空間感知的文本塊並輸出結構化文本，適用於文檔級文本識別和圖像轉Markdown文本生成等任務。

模型特點

多模態讀寫能力

結合視覺和語言處理能力，實現圖像中文本的識別和結構化輸出。

空間感知文本塊

能夠標註每個文本塊在圖像中的座標位置，提供空間信息。

結構化輸出

將樣式與結構轉化為Markdown格式，便於後續處理和使用。

任務適配性

通過監督微調配合不同提示詞，可快速適配各種文本密集圖像理解任務。

模型能力

文本識別

圖像轉Markdown

文檔理解

空間文本標註

使用案例

文檔處理

端到端文檔級文本識別

從複雜文檔圖像中提取文本內容並保留結構信息

高精度的文本識別和結構保留

圖像轉Markdown

將包含文本的圖像轉換為結構化Markdown格式

保留原始樣式和結構的Markdown輸出

富文本圖像處理

現實世界富文本圖像理解

處理包含複雜文本佈局的現實世界圖像

通用化的文本密集圖像理解能力

🚀 Kosmos-2.5

Kosmos-2.5是一款用於文本密集型圖像機器閱讀的多模態模型。它在大規模文本密集型圖像上進行預訓練，能夠出色完成兩種不同但相互協作的轉錄任務，為文本豐富圖像的相關實際應用提供了通用解決方案，也為多模態大語言模型的未來發展奠定了基礎。

Microsoft Document AI | GitHub

🚀 快速開始

推理

Markdown任務：使用說明請參考 md.py。
OCR任務：使用說明請參考 ocr.py。

✨ 主要特性

Kosmos-2.5是用於文本密集型圖像機器閱讀的多模態模型。在大規模文本密集型圖像上進行預訓練後，Kosmos-2.5在兩項不同但相互協作的轉錄任務中表現出色：

生成具有空間感知的文本塊：為圖像中的每個文本塊分配其在圖像內的空間座標。
生成結構化文本輸出：將樣式和結構轉換為Markdown格式。

這種統一的多模態能力是通過共享的僅解碼器自迴歸Transformer架構、特定任務的提示和靈活的文本表示來實現的。我們在端到端文檔級文本識別和圖像到Markdown文本生成任務上對Kosmos-2.5進行了評估。此外，通過有監督的微調，該模型可以使用不同的提示輕鬆適應任何文本密集型圖像理解任務，使其成為處理富含文本圖像的現實應用的通用工具。這項工作也為多模態大語言模型的未來擴展鋪平了道路。

Kosmos-2.5: A Multimodal Literate Model

📚 詳細文檔

注意事項

⚠️ 重要提示

由於這是一個生成式模型，在生成過程中存在幻覺風險，並且無法保證圖像中所有OCR/Markdown結果的準確性。

引用

如果您在研究中發現Kosmos-2.5很有用，請引用以下論文：

@article{lv2023kosmos,
  title={Kosmos-2.5: A multimodal literate model},
  author={Lv, Tengchao and Huang, Yupan and Chen, Jingye and Cui, Lei and Ma, Shuming and Chang, Yaoyao and Huang, Shaohan and Wang, Wenhui and Dong, Li and Luo, Weiyao and others},
  journal={arXiv preprint arXiv:2309.11419},
  year={2023}
}