高精度OCR

# 高精度OCR

En PP OCRv4 Mobile Rec

PaddleOCR團隊開發的超輕量級英文文本行識別模型，支持英文和數字字符識別

文字識別支持多種語言

SLANeXt_wired 是一個用於表格結構識別的深度學習模型，能夠將不可編輯的表格圖像轉換為可編輯的表格格式（如 HTML）。

文字識別支持多種語言

PP OCRv5 Server Det

PP-OCRv5_server_det 是 PaddleOCR 團隊研發的最新一代文本檢測模型，專為高性能應用場景設計，支持檢測多種場景下的文本，包括手寫、豎排、旋轉和彎曲文本，可識別多種語言。

文字識別支持多種語言

Llama 3.1 Nemotron Nano VL 8B V1

Llama-3.1-Nemotron-Nano-VL-8B-V1是一款先進的文檔智能視覺語言模型，能夠對圖像和視頻進行查詢與總結，支持多環境部署。

圖像生成文本

Qwen2.5-VL-32B-Instruct是Qwen家族的最新視覺語言模型，具備強大的視覺理解和智能代理能力，支持多模態任務處理。

圖像生成文本

Transformers 支持多種語言

Qwen2.5 VL 32B Instruct Exl2 4 25bpw

Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新視覺語言模型，具備強大的多模態理解和生成能力，支持圖像、視頻和文本的交互。

文本生成圖像

Transformers 英語

christopherthompson81

Sapnous-6B是一款先進的視覺語言模型，通過強大的多模態能力提升對世界的感知和理解。

圖像生成文本

Transformers 英語

Aya Vision 32B是Cohere實驗室開發的開放權重32B參數多模態模型，支持23種語言的視覺語言任務。

圖像生成文本

Transformers 支持多種語言

Qwen2.5 VL 72B Instruct AWQ

Qwen2.5-VL是通義千問團隊推出的多模態大語言模型，具備強大的視覺理解和智能代理能力，支持圖像、視頻、文本等多種輸入格式。

文本生成圖像

Transformers 英語

Typhoon2 Qwen2vl 7b Vision Instruct

Typhoon2-Vision 是一款支持泰語的視覺語言模型，能夠處理圖像和視頻輸入，特別針對基於圖像的應用進行了優化。

文本生成圖像

Transformers 支持多種語言

Paligemma2 3b Mix 224

PaliGemma 2是Google開發的升級版視覺語言模型，結合了Gemma 2的能力，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

TF-ID是一系列目標檢測模型，專門用於提取學術論文中的表格和圖表及其標題文本。

圖像生成文本

TF-ID是專門用於提取學術論文中表格和圖表的視覺目標檢測模型，基於Florence-2微調而成

Pix2text Mfr Quantized

Pix2Text的數學公式識別(MFR)模型，基於TrOCR架構訓練，可將數學公式圖片轉換為LaTeX文本表示。

Pix2Text的數學公式檢測(MFD)模型，用於識別圖片中的數學公式

文字識別其他

Sparrow是基於Donut ML基礎模型在發票數據上微調的文檔數據提取模型，旨在驗證Donut在企業文檔上的表現性能。

圖像生成文本

Transformers 英語

Sparrow是基於Donut ML基礎模型在發票數據上微調而成的文檔數據提取工具，旨在驗證Donut在企業文檔上的表現性能。

圖像生成文本

Transformers 英語

該模型是一個基於Apache-2.0許可證的圖像轉文本模型，能夠將圖像內容轉換為文本描述。

OCR TextInput Base

一個專注於金融領域的圖像轉文本模型，支持英文文本識別，主要用於處理金融文檔中的圖像內容。

Transformers 英語

Output LayoutLMv3 V7

基於microsoft/layoutlmv3-base微調的文檔理解模型，擅長處理文檔佈局分析任務

MiniCPM-V 2.0是面向高效終端部署的強大多模態大語言模型，基於SigLip-400M和MiniCPM-2.4B構建，通過感知器重採樣器連接。

文本生成圖像

Transformers 支持多種語言

Trocr Base Plate Number

一個用於識別車輛牌照的視覺模型，能夠從圖像中提取車牌號碼。

MoAI是一個大型語言與視覺混合模型，能夠處理圖像和文本輸入，生成文本輸出。

圖像生成文本

Pix2Text的數學公式識別(MFR)模型，基於TrOCR架構訓練，能夠將數學公式圖像轉換為LaTeX文本表示。

Trocr Base Printed License Plates Ocr Timestamp

基於microsoft/trocr-base-printed微調的OCR模型，專門用於識別車牌和時間戳信息

Nougat For Formula

基於Nougat-small微調的數學公式識別模型，擅長從圖像中提取LaTeX公式代碼

圖像生成文本

CORD-v2 是一個用於圖像轉文本任務的模型，主要用於從圖像中提取和識別文本內容。

Finetune Donut Cord V2.5

這是一個基於Donut架構的視覺語言模型，專門針對CORD-V2數據集進行微調，用於文檔圖像轉文本任務。

圖像生成文本

該模型已過時，建議使用官方Nougat模型。Nougat是一種先進的視覺語言模型，專注於文檔理解和分析。

圖像生成文本

一款專用於轉錄e13b MICR碼的OCR模型，基於微軟的TrOCR-large-stage1微調而來。

Transformers 英語

Pix2struct Tiny Random

這是一個基於MIT許可證的圖像轉文本模型，能夠將圖像內容轉換為描述性文本。

圖像生成文本

General Image Captioning

這是一個基於Apache-2.0許可證的圖像轉文本模型，能夠將圖像內容轉換為文本描述。

Transformers 其他

基於naver-clova-ix/donut-base微調的模型，具體用途和功能需要更多信息

圖像生成文本

Layoutlmv3 Finetuned DocLayNet

基於LayoutLMv3架構微調的文檔佈局分析模型，專門用於處理DocLayNet數據集中的文檔元素分類任務。

Transformers 英語

Invoices Donut Model V1

Sparrow是基於Donut ML基礎模型在發票數據上微調的文檔數據提取模型，旨在驗證Donut在企業文檔上的表現性能。

圖像生成文本

Transformers 英語

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

這是一個基於MIT許可證的圖像轉文本模型，能夠將圖像內容轉換為文本描述。

圖像生成文本

這是一個基於CORD-v2數據集微調的Donut模型，專為圖像轉文本任務設計，平均準確率達到0.901。

圖像生成文本

Layoutlmv3 Finetuned Funsd

基於microsoft/layoutlmv3-base在nielsr/funsd-layoutlmv3數據集上微調的文檔理解模型

MGP-STR是一個純視覺場景文本識別模型，通過多粒度預測實現高效OCR。

基於naver-clova-ix/donut-base微調的模型，具體用途未明確說明

圖像生成文本

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase