mangaocr-hoogberta-v2开源模型 - 免费提取日文漫画图像中文本内容

首页

Mangaocr Hoogberta V2

由 dsupa 开发

一个基于TrOCR架构的日文漫画文本识别模型，专门用于从漫画图像中提取文本内容。

图像生成文本

Transformers

#漫画文本识别 #日语OCR #高精度文字提取

下载量 39

发布时间 : 4/22/2023

模型简介

该模型结合了视觉编码器和文本解码器，能够准确识别漫画图像中的日文文本，适用于漫画翻译、内容分析等场景。

模型特点

漫画专用OCR

专门针对漫画文本特点优化，能处理气泡文字、艺术字体等复杂排版

端到端识别

直接从图像生成文本，无需传统OCR的分步处理流程

Hoogberta架构

基于改进的Transformer架构，在日文文本识别上表现优异

模型能力

漫画文本识别

日文OCR

图像转文本

气泡文字提取

使用案例

漫画翻译

自动提取对话文本

从扫描的漫画页面中自动识别对话内容

可显著减少人工输入工作量

内容分析

漫画内容索引

为漫画内容建立可搜索的文本数据库

实现基于文本的漫画内容检索

🚀 漫画OCR模型（MangaOCR）

本项目是一个图像转文字的模型，利用Trocr技术，能够将漫画图像中的文字准确识别出来，为漫画文字处理提供了高效的解决方案。

🚀 快速开始

以下是在PyTorch中使用该模型的示例代码：

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

processor = TrOCRProcessor.from_pretrained('dsupa/mangaocr-hoogberta-v2')
model = VisionEncoderDecoderModel.from_pretrained('dsupa/mangaocr-hoogberta-v2')

def predict(image_path):
    image = Image.open(image_path).convert("RGB")
    pixel_values = processor(images=image, return_tensors="pt").pixel_values
    generated_ids = model.generate(pixel_values)
    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

    return generated_text

image_path = "your_img.jpg"
pred = predict(image_path)
print(pred)

💻 使用示例

基础用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

processor = TrOCRProcessor.from_pretrained('dsupa/mangaocr-hoogberta-v2')
model = VisionEncoderDecoderModel.from_pretrained('dsupa/mangaocr-hoogberta-v2')

def predict(image_path):
    image = Image.open(image_path).convert("RGB")
    pixel_values = processor(images=image, return_tensors="pt").pixel_values
    generated_ids = model.generate(pixel_values)
    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

    return generated_text

image_path = "your_img.jpg"
pred = predict(image_path)
print(pred)

高级用法

# 你可以根据实际需求，对预测函数进行扩展，例如批量处理图片等。
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import os

processor = TrOCRProcessor.from_pretrained('dsupa/mangaocr-hoogberta-v2')
model = VisionEncoderDecoderModel.from_pretrained('dsupa/mangaocr-hoogberta-v2')

def predict(image_path):
    image = Image.open(image_path).convert("RGB")
    pixel_values = processor(images=image, return_tensors="pt").pixel_values
    generated_ids = model.generate(pixel_values)
    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

    return generated_text

image_folder = "your_image_folder"
for image_name in os.listdir(image_folder):
    image_path = os.path.join(image_folder, image_name)
    pred = predict(image_path)
    print(f"Image: {image_name}, Prediction: {pred}")