文檔圖像處理

# 文檔圖像處理

PP OCRv4 Server Rec

PP-OCRv4_server_rec 是 PaddleOCR 團隊開發的 PP-OCRv4_rec 系列中的一個文本行識別模型，支持一般中文和英文場景下的文本行識別，主要側重於中文。

文字識別支持多種語言

SLANet_plus是一款用於表格結構識別的模型，能夠將不可編輯的表格圖像轉換為可編輯的表格格式（如HTML），在表格識別系統中發揮著重要作用，可有效提升表格識別的準確性和效率。

文字識別支持多種語言

Table Transformer Page Segmentation Floorplan

這是一個基於Transformer架構的圖像分割模型，專門用於處理頁面佈局和平面圖的分割任務。

猴模型是一種大型多模態模型，通過提升圖像分辨率和改進文本標籤方法，在多項視覺任務中表現優異。

圖像生成文本

猴子模型是一種高效的大型多模態模型，通過提升圖像分辨率和改進文本標籤方法，在多個視覺任務中表現優異。

圖像生成文本

基於naver-clova-ix/donut-base微調的模型，具體用途未明確說明

圖像生成文本

基於naver-clova-ix/donut-base微調的模型，用於處理圖像數據

Donut是一種無需OCR的文檔理解Transformer模型，結合視覺編碼器和文本解碼器處理圖像到文本的轉換

圖像生成文本

Donut是一種無需OCR的文檔理解Transformer模型，由視覺編碼器(Swin Transformer)和文本解碼器(BART)組成。

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase