Kosmos 2.5
Kosmos-2.5是一款面向文本密集圖像機器閱讀的多模態讀寫模型,能夠處理圖像中的文本識別和結構化輸出。
下載量 5,531
發布時間 : 5/13/2024
模型概述
Kosmos-2.5是一款多模態讀寫模型,專注於文本密集圖像的機器閱讀任務。它能夠生成空間感知的文本塊並輸出結構化文本,適用於文檔級文本識別和圖像轉Markdown文本生成等任務。
模型特點
多模態讀寫能力
結合視覺和語言處理能力,實現圖像中文本的識別和結構化輸出。
空間感知文本塊
能夠標註每個文本塊在圖像中的座標位置,提供空間信息。
結構化輸出
將樣式與結構轉化為Markdown格式,便於後續處理和使用。
任務適配性
通過監督微調配合不同提示詞,可快速適配各種文本密集圖像理解任務。
模型能力
文本識別
圖像轉Markdown
文檔理解
空間文本標註
使用案例
文檔處理
端到端文檔級文本識別
從複雜文檔圖像中提取文本內容並保留結構信息
高精度的文本識別和結構保留
圖像轉Markdown
將包含文本的圖像轉換為結構化Markdown格式
保留原始樣式和結構的Markdown輸出
富文本圖像處理
現實世界富文本圖像理解
處理包含複雜文本佈局的現實世界圖像
通用化的文本密集圖像理解能力
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98