K

Kosmos 2.5

由microsoft開發
Kosmos-2.5是一款面向文本密集圖像機器閱讀的多模態讀寫模型,能夠處理圖像中的文本識別和結構化輸出。
下載量 5,531
發布時間 : 5/13/2024

模型概述

Kosmos-2.5是一款多模態讀寫模型,專注於文本密集圖像的機器閱讀任務。它能夠生成空間感知的文本塊並輸出結構化文本,適用於文檔級文本識別和圖像轉Markdown文本生成等任務。

模型特點

多模態讀寫能力
結合視覺和語言處理能力,實現圖像中文本的識別和結構化輸出。
空間感知文本塊
能夠標註每個文本塊在圖像中的座標位置,提供空間信息。
結構化輸出
將樣式與結構轉化為Markdown格式,便於後續處理和使用。
任務適配性
通過監督微調配合不同提示詞,可快速適配各種文本密集圖像理解任務。

模型能力

文本識別
圖像轉Markdown
文檔理解
空間文本標註

使用案例

文檔處理
端到端文檔級文本識別
從複雜文檔圖像中提取文本內容並保留結構信息
高精度的文本識別和結構保留
圖像轉Markdown
將包含文本的圖像轉換為結構化Markdown格式
保留原始樣式和結構的Markdown輸出
富文本圖像處理
現實世界富文本圖像理解
處理包含複雜文本佈局的現實世界圖像
通用化的文本密集圖像理解能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase