圖像轉文本

# 圖像轉文本

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged GGUF

這是一個基於Qari-OCR-0.3-SNAPSHOT-VL-2B-Instruct-merged模型的靜態量化版本，主要用於圖像到文本的轉換任務。

圖像生成文本

Transformers 英語

Florence Base Mixed Line Bbox Ocr

基於Microsoft Florence-2基礎模型微調的圖像轉文本模型，支持瑞典語和英語，專注於歷史手寫文本識別和光學字符識別。

圖像生成文本

Mixtex Finetune

MixTex base_ZhEn 是一個支持中文和英語的圖像轉文本模型，基於MIT許可證發佈。

圖像生成文本支持多種語言

Vit Gpt2 Image Captioning

這是一個基於ViT和GPT2架構的圖像描述生成模型，能夠為輸入的圖像生成自然語言描述。

圖像生成文本

Sarashina2 Vision 8b

Sarashina2-Vision-8B是由SB Intuitions訓練的日本大型視覺語言模型，基於Sarashina2-7B和Qwen2-VL-7B的圖像編碼器，在多個基準測試中表現優異。

圖像生成文本

Transformers 支持多種語言

Bpe Vocab N OCR

Bpe-vocab-n-OCR 是一款基於OCR的高級文本提取工具，專為生成結構化、分詞的輸出而優化。

圖像生成文本

Transformers 支持多種語言

Thai Handwriting Llm

基於Llama-3.2-11B-Vision-Instruct的LoRA適配視覺語言模型，可從圖像中轉錄泰語手寫文本。

圖像生成文本

Safetensors 其他

Sdxl Aam Xl Anime Mix

基於Stable Diffusion XL的動漫風格圖像生成模型，支持圖像到文本的轉換

BLIP Radiology Model

基於transformers庫的圖像轉文本模型，支持將圖像內容轉換為描述性文本。

圖像生成文本

基於TrOCR架構的天城文光學字符識別模型，專門針對尼泊爾語/天城文字符進行微調

Transformers 其他

Trocr Math Handwritten

TrOCR是一個基於Transformer的OCR模型，專門用於識別手寫數學公式

圖像生成文本

Florence 2 Large

Florence-2是微軟開發的先進視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺語言任務。

圖像生成文本

Florence 2 Large

Florence-2是微軟開發的先進視覺基礎模型，採用基於提示的方法處理廣泛的視覺和視覺語言任務。

圖像生成文本

lodestone-horizon

Donut 是一個基於 Transformer 的圖像轉文本模型，能夠從圖像中提取和生成文本內容。

圖像生成文本

Trocr German Handwritten

這是一個基於Transformer的OCR模型，專門用於識別德語手寫文本。

Transformers 德語

Paligemma 3b Mix 448 Ft TableDetection

基於google/paligemma-3b-mix-448微調的多模態表格檢測模型，專用於識別圖像中的表格區域

圖像生成文本

天秤座是一個基於大語言模型構建的解耦視覺系統，具備基礎多模態理解能力。

圖像生成文本

OCR TextInput Base

一個專注於金融領域的圖像轉文本模型，支持英文文本識別，主要用於處理金融文檔中的圖像內容。

Transformers 英語

Llava Phi 3 Mini Gguf

LLaVA-Phi-3-mini 是基於 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微調的 LLaVA 模型，專注於圖像轉文本任務。

圖像生成文本

Trocr Base Finetune Numbers

TrOCR 是一個基於Transformer的光學字符識別模型，用於從圖像中提取文本內容。

圖像生成文本

Transformers 英語

InfiMM-HD是一個高分辨率多模態模型，能夠理解和生成結合圖像和文本的內容。

圖像生成文本

Transformers 英語

該模型是微軟TrOCR印刷體模型的微調版本，專門用於僧伽羅文的OCR識別任務。

Transformers 其他

基於Hugging Face Transformers的光學字符識別模型，專門用於識別MNIST風格的數字圖像

Transformers 英語

Trocr Base Printed Captcha Ocr

基於微軟trocr-base-printed模型微調的驗證碼識別模型，專門用於處理印刷體文本的OCR任務

Image Caption Using ViT GPT2

這是一個基於Vision Transformer(ViT)和GPT2架構的圖像描述生成模型，能夠為輸入圖像生成自然語言描述。

圖像生成文本

Donut Finetune Rvl Cdip

基於Donut框架的文檔分類模型，在RVL-CDIP小規模數據集上訓練

圖像生成文本

Transformers 英語

Trocr Base Fa V2

這是一個基於Transformer的OCR模型，專門用於識別波斯語文本圖像。

文字識別其他

Git Base Next Refined

基於microsoft/git-base微調的圖像轉文本模型

大型語言模型

Transformers 其他

專注於日本漫畫的日語文本光學字符識別模型

Transformers 日語

Vit Gpt2 Verifycode Caption

基於60000張圖片訓練集微調的Vit-GPT2架構驗證碼識別模型，能夠準確識別圖像中的驗證碼文本。

圖像生成文本

Blip Base Captioning Ft Hl Scenes

該模型是基於BLIP架構的圖像描述生成模型，專門針對場景高層描述進行了微調。

圖像生成文本

Transformers 英語

michelecafagna26

Pix2struct Refexp Base

Pix2Struct是一個圖像編碼器-文本解碼器模型，針對多種視覺語言任務進行訓練，包括圖像描述和視覺問答。

圖像生成文本

Transformers 支持多種語言

Trocr Small Korean

TrOCR是一個基於視覺編碼器-解碼器架構的韓語圖像轉文本模型，使用DeiT作為圖像編碼器，RoBERTa作為文本解碼器。

圖像生成文本韓語

基於微軟GIT框架的多模態模型，專注於從學生作業圖像中提取文本並生成教師反饋

圖像生成文本

Transformers 支持多種語言

Donut Base Sroie

基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型，具體用途未明確說明

Donut Base Finetuned SOGC Archive Trademarks 1883 2001

一個用於識別和解析歷史商標文檔的多語言圖像轉文本模型，支持德語、意大利語和法語。

圖像生成文本

Transformers 支持多種語言

一個用於希伯來語圖像轉文本的OCR模型，能夠識別圖像中的希伯來語文字。

Transformers 其他

Mangaocr Hoogberta V2

一個基於TrOCR架構的日文漫畫文本識別模型，專門用於從漫畫圖像中提取文本內容。

圖像生成文本

基於圖像文件夾數據集訓練的OCR模型，用於PDF文檔的文本識別

Trocr Base Handwritten OCR Handwriting Recognition V2

基於微軟trocr-base-handwritten微調的手寫體OCR模型，在評估集上字符錯誤率(CER)為0.0360

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase