多語言OCR

# 多語言OCR

PP OCRv4 Mobile Det

PP-OCRv4_mobile_det 是由 PaddleOCR 團隊開發的針對移動設備優化的高效文本檢測模型，適合邊緣設備部署。

文字識別支持多種語言

PP OCRv5 Mobile Rec

PP-OCRv5_mobile_rec 是 PaddleOCR 團隊開發的最新一代文本行識別模型，支持簡體中文、繁體中文、英文和日文四種語言的識別，適用於多種複雜文本場景。

文字識別支持多種語言

PP OCRv5 Server Rec

PP-OCRv5_server_rec 是 PaddleOCR 團隊開發的最新一代文本行識別模型，支持多語言和複雜文本場景的識別。

文字識別支持多種語言

Florence Base Mixed Line Bbox Ocr

基於Microsoft Florence-2基礎模型微調的圖像轉文本模型，支持瑞典語和英語，專注於歷史手寫文本識別和光學字符識別。

圖像生成文本

Mistral Small 1

基於Mistral-Small-3.1-24B-Instruct-2503構建的圖像文本轉文本模型，支持多語言處理

圖像生成文本

Safetensors 支持多種語言

CreitinGameplays

Internvl3 2B AWQ

InternVL3-2B是OpenGVLab推出的先進多模態大語言模型（MLLM），具備卓越的多模態感知和推理能力，支持工具使用、GUI代理、工業圖像分析、3D視覺感知等。

Transformers 其他

MiniCPM-V 2.6是一款強大的多模態大語言模型，能夠在手機等設備上高效運行，支持單圖像、多圖像和視頻理解任務。

文本生成圖像

Transformers 其他

Paligemma2 3b Mix 224 Jax

PaliGemma 2是基於Gemma 2的升級版視覺語言模型，支持多語言圖文輸入與文本輸出，專為視覺語言任務設計

文本生成圖像

Minicpm O 2 6 Int4

MiniCPM-o 2.6的int4量化版本，顯著降低GPU顯存佔用，支持多模態處理能力。

文本生成音頻

Transformers 其他

Paligemma2 28b Mix 224

PaliGemma 2是Google推出的升級版視覺語言模型，結合Gemma 2和SigLIP視覺模型能力，支持多語言圖像文本交互任務。

圖像生成文本

Paligemma2 28b Mix 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像+文本輸入，輸出文本響應，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 10b Mix 224

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像和文本輸入，生成文本輸出，適用於多種視覺語言任務。

圖像生成文本

Paligemma2 3b Mix 448

PaliGemma 2是基於Gemma 2的視覺語言模型，支持圖像與文本輸入，輸出生成文本，適用於多種視覺語言任務。

圖像生成文本

基於TrOCR架構的天城文光學字符識別模型，專門針對尼泊爾語/天城文字符進行微調

Transformers 其他

基於TrOCR基礎手寫體模型微調而成的泰語和英語光學字符識別模型，擅長處理手寫文本行圖像

Transformers 支持多種語言

該模型是針對烏爾都語OCR任務專門訓練的，最適合處理單行烏爾都語文本圖像，主要專注於印刷體文本。

Transformers 其他

Trocr Medieval Cursiva

這是一個基於TrOCR的中世紀草書體識別模型，專門用於識別拉丁語、法語、意大利語、西班牙語和加泰羅尼亞語的中世紀手寫文本。

Transformers 支持多種語言

TrOCR-Ru是基於microsoft/trocr-base-handwritten在俄語和英語合成數據集上微調的光學字符識別模型，專注於圖像轉文本任務。

Transformers 支持多種語言

Trocr Base Finetune Numbers

TrOCR 是一個基於Transformer的光學字符識別模型，用於從圖像中提取文本內容。

圖像生成文本

Transformers 英語

一個基於Transformer架構的OCR系統，專門用於識別中部庫爾德語文本，使用合成數據進行訓練。

Pix2struct Ocrvqa Base

Pix2Struct是基於OCR-VQA任務微調的視覺問答模型，能夠解析圖像中的文本內容並回答問題

圖像生成文本

Transformers 支持多種語言

Pix2struct Docvqa Base

Pix2Struct是一個圖像編碼器-文本解碼器模型，通過圖像-文本對訓練，支持多種任務，包括圖像描述生成和視覺問答。

圖像生成文本

Transformers 支持多種語言

Pix2struct Chartqa Base

Pix2Struct是一種圖像編碼器-文本解碼器模型，通過圖像-文本配對數據進行多任務訓練，專門針對圖表問答任務進行微調

文本生成圖像

Transformers 支持多種語言

Donut Base Finetuned Latvian Receipts

該模型是基於donut-base在拉脫維亞收據數據集上微調的版本，主要用於收據圖像處理任務

Doctr Torch Crnn Mobilenet V3 Large French

基於TensorFlow 2和PyTorch的光學字符識別(OCR)模型，支持多語言文本檢測與識別

Transformers 支持多種語言

Doctr Tf Crnn Vgg16 Bn French

基於 TensorFlow 2 和 PyTorch 的光學字符識別技術，支持多語言文檔識別

Transformers 支持多種語言

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase