OCR增強

# OCR增強

專注於將圖像內容轉化為文本信息的模型，具有廣泛的應用價值。

圖像生成文本

TensorBoard 其他

Webssl Mae700m Full2b 224

這是一個7億參數的視覺Transformer模型，採用掩碼自編碼器自監督學習方法在20億網絡圖像上訓練，無需語言監督。

Aya Vision 8B是一個開放權重的80億參數多語言視覺語言模型，支持23種語言的視覺和語言任務。

圖像生成文本

Transformers 支持多種語言

Turkish LLaVA V0.1

一個專為多模態視覺指令跟隨任務設計的土耳其語視覺語言模型，能夠同時處理視覺（圖像）和文本輸入，理解並執行土耳其語提供的指令。

圖像生成文本

Safetensors 其他

Vit Intern300m Patch14 448.ogvl Dist

InternViT-300M是一個由OpenGVLab團隊開發的視覺Transformer模型，通過從InternViT-6B蒸餾預訓練而來，支持多種視覺任務。

Idefics3 8B Llama3

Idefics3是一個開源的多模態模型，能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。

圖像生成文本

Transformers 英語

Florence 2 Large

Florence-2是微軟推出的先進視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺語言任務。

文本生成圖像

Internvit 300M 448px

InternViT-300M-448px是一個高效的視覺基礎模型，通過從InternViT-6B-448px-V1-5蒸餾知識開發而來，具備448×448的動態輸入分辨率，支持1至40個圖塊處理。

文本生成圖像

Idefics2 8b Chatty

Idefics2 是一個開放的多模態模型，能夠接受任意序列的圖像和文本輸入並生成文本輸出。該模型可以回答關於圖像的問題、描述視覺內容、基於多張圖像創作故事，或僅作為純語言模型使用。

圖像生成文本

Transformers 英語

Internvit 6B 448px V1 5

InternViT-6B-448px-V1-5是基於InternViT-6B-448px-V1-2微調的視覺基礎模型，具備強大的魯棒性、OCR能力及高分辨率處理能力。

文本生成圖像

Pix2text Table Rec

基於微軟Table Transformer開發的表格結構識別模型，用於文檔中的表格檢測與識別任務

Donut Base Handwriting Recognition

基於naver-clova-ix/donut-base微調的手寫識別模型

Internvit 6B 448px V1 2

InternViT-6B-448px-V1-2是一個視覺基礎模型，特徵骨幹，具有5540萬參數，支持448x448像素的圖像處理。

文本生成圖像

Sampel2 Docqa Layoutlmv3 Base

基於microsoft/layoutlmv2-base-uncased微調的文檔問答模型，具體訓練數據集未知

Cogagent Vqa Hf

CogAgent是基於CogVLM改進的開源視覺語言模型，專注於單輪視覺問答任務

文本生成圖像

Transformers 英語

Cogagent Chat Hf

CogAgent是基於CogVLM改進的開源視覺語言模型，具備GUI智能體、視覺多輪對話和視覺定位等能力。

文本生成圖像

Transformers 英語

Testdocumentquestionanswering

基於LayoutLMv2架構的文檔視覺問答模型，針對DocVQA任務進行微調

圖像生成文本

該模型是基於microsoft/layoutlmv2-base-uncased在generator數據集上微調的版本，適用於文檔理解和佈局分析任務。

大型語言模型

Donut Receipt V3

基於naver-clova-ix/donut-base微調的模型，具體用途未明確說明

大型語言模型

Layoutlmv2 Base Uncased Finetuned Docvqa

基於LayoutLMv2架構的文檔視覺問答模型，專為文檔理解任務微調

文本生成圖像

Layoutlmv2 Base Uncased Finetuned Docvqa

基於LayoutLMv2架構的文檔視覺問答模型，專門針對文檔理解任務進行微調

圖像生成文本

Donut Base Sroie

基於naver-clova-ix/donut-base微調的文檔理解模型，專注於結構化文檔信息提取任務

基於naver-clova-ix/donut-base微調的文檔理解模型，適用於圖像文件夾數據集

Layoutlmv2 Base Uncased Finetuned Docvqa V2

該模型是基於microsoft/layoutlmv2-base-uncased在文檔視覺問答任務上微調的版本，專注於處理文檔圖像中的文本和佈局信息。

圖像生成文本

Donut Base Sroie

基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型，適用於文檔理解任務

Donut Base Sroie

該模型是基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的版本，適用於文檔理解任務。

Donut Base Payslips

基於Donut架構的文檔理解模型，專門針對工資單圖像處理進行微調

Donut Base Medical Handwritten Blocks Data Extraction

基於Donut架構的模型，專門用於從醫療手寫文檔中提取結構化數據

Donut Base Sroie

基於naver-clova-ix/donut-base微調的文檔理解模型，適用於圖像文本提取任務

該模型是一個基於MIT許可證的開源模型，CER（字符錯誤率）為0.0019，表明其在特定任務上具有較高的準確性。

大型語言模型

Layoutlmv2 Base Uncased Finetuned Docvqa

基於LayoutLMv2架構的文檔視覺問答模型，針對文檔理解任務進行了微調

文本生成圖像

Layoutlm Finetuned Funsd

這是一個在FUNSD數據集上微調的LayoutLM模型，專門用於文檔/表單的標記分類任務。

Layoutlmv2 Large Uncased Finetuned Infovqa

基於LayoutLMv2架構的文檔理解模型，針對InfoVQA任務進行微調

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase