mangaocr-hoogberta-v2開源模型 - 免費提取日文漫畫圖像中文本內容

首頁

Mangaocr Hoogberta V2

由dsupa開發

一個基於TrOCR架構的日文漫畫文本識別模型，專門用於從漫畫圖像中提取文本內容。

圖像生成文本

Transformers

#漫畫文本識別 #日語OCR #高精度文字提取

下載量 39

發布時間 : 4/22/2023

模型概述

該模型結合了視覺編碼器和文本解碼器，能夠準確識別漫畫圖像中的日文文本，適用於漫畫翻譯、內容分析等場景。

模型特點

漫畫專用OCR

專門針對漫畫文本特點優化，能處理氣泡文字、藝術字體等複雜排版

端到端識別

直接從圖像生成文本，無需傳統OCR的分步處理流程

Hoogberta架構

基於改進的Transformer架構，在日文文本識別上表現優異

模型能力

漫畫文本識別

日文OCR

圖像轉文本

氣泡文字提取

使用案例

漫畫翻譯

自動提取對話文本

從掃描的漫畫頁面中自動識別對話內容

可顯著減少人工輸入工作量

內容分析

漫畫內容索引

為漫畫內容建立可搜索的文本數據庫

實現基於文本的漫畫內容檢索

🚀 漫畫OCR模型（MangaOCR）

本項目是一個圖像轉文字的模型，利用Trocr技術，能夠將漫畫圖像中的文字準確識別出來，為漫畫文字處理提供了高效的解決方案。

🚀 快速開始

以下是在PyTorch中使用該模型的示例代碼：

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

processor = TrOCRProcessor.from_pretrained('dsupa/mangaocr-hoogberta-v2')
model = VisionEncoderDecoderModel.from_pretrained('dsupa/mangaocr-hoogberta-v2')

def predict(image_path):
    image = Image.open(image_path).convert("RGB")
    pixel_values = processor(images=image, return_tensors="pt").pixel_values
    generated_ids = model.generate(pixel_values)
    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

    return generated_text

image_path = "your_img.jpg"
pred = predict(image_path)
print(pred)

💻 使用示例

基礎用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

processor = TrOCRProcessor.from_pretrained('dsupa/mangaocr-hoogberta-v2')
model = VisionEncoderDecoderModel.from_pretrained('dsupa/mangaocr-hoogberta-v2')

def predict(image_path):
    image = Image.open(image_path).convert("RGB")
    pixel_values = processor(images=image, return_tensors="pt").pixel_values
    generated_ids = model.generate(pixel_values)
    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

    return generated_text

image_path = "your_img.jpg"
pred = predict(image_path)
print(pred)

高級用法

# 你可以根據實際需求，對預測函數進行擴展，例如批量處理圖片等。
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import os

processor = TrOCRProcessor.from_pretrained('dsupa/mangaocr-hoogberta-v2')
model = VisionEncoderDecoderModel.from_pretrained('dsupa/mangaocr-hoogberta-v2')

def predict(image_path):
    image = Image.open(image_path).convert("RGB")
    pixel_values = processor(images=image, return_tensors="pt").pixel_values
    generated_ids = model.generate(pixel_values)
    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

    return generated_text

image_folder = "your_image_folder"
for image_name in os.listdir(image_folder):
    image_path = os.path.join(image_folder, image_name)
    pred = predict(image_path)
    print(f"Image: {image_name}, Prediction: {pred}")