オープンソースMagi漫画解読ツール - 漫画の画像とテキスト要素を自動認識し、無料で転写テキストを生成

ホーム

Magi

ragavsachdevaによって開発

漫画解読者は、漫画内のテキストと画像要素を自動的に認識し、対応する転写テキストを生成する自動転写生成システムです。

文字認識

Transformers

英語#漫画OCR #マルチモーダル転写 #視覚-テキスト関連

ダウンロード数 2,575

リリース時間 : 1/18/2024

モデル概要

このシステムは、物体検出、光学文字認識(OCR)、クラスタリング分析技術を組み合わせており、漫画画像を自動処理し、テキスト内容を抽出して構造化された転写を生成できます。

モデル特徴

マルチモーダル処理

画像とテキスト情報を同時に処理し、漫画内容の包括的な解析を実現

自動転写生成

漫画内容のテキスト転写を自動生成可能

視覚化結果

検出結果の視覚的な出力を提供

モデル能力

漫画画像分析

テキスト検出

光学文字認識(OCR)

内容転写生成

結果視覚化

使用事例

デジタル漫画処理

漫画デジタル化

紙の漫画を検索可能なデジタル形式に変換

構造化されたテキスト転写を生成

漫画内容分析

漫画内のテキスト内容とレイアウトを分析

主要な会話とシーン情報を抽出

支援技術

視覚障害者支援

視覚障害ユーザーに漫画内容のテキスト説明を提供

漫画内容のアクセシビリティ向上

🚀 マンガ・ホワイスパー

漫画の自動文字起こしを実現するプロジェクト

このプロジェクトでは、漫画の自動文字起こしを行う技術を提供しています。漫画の画像から文字を検出し、OCRを行って文字起こしを自動生成することができます。

image/png

🚀 クイックスタート

以下の手順で、このモデルを使用して漫画の文字起こしを行うことができます。

💻 使用例

基本的な使用法

from transformers import AutoModel
import numpy as np
from PIL import Image
import torch
import os

images = [
        "path_to_image1.jpg",
        "path_to_image2.png",
    ]

def read_image_as_np_array(image_path):
    with open(image_path, "rb") as file:
        image = Image.open(file).convert("L").convert("RGB")
        image = np.array(image)
    return image

images = [read_image_as_np_array(image) for image in images]

model = AutoModel.from_pretrained("ragavsachdeva/magi", trust_remote_code=True).cuda()
with torch.no_grad():
    results = model.predict_detections_and_associations(images)
    text_bboxes_for_all_images = [x["texts"] for x in results]
    ocr_results = model.predict_ocr(images, text_bboxes_for_all_images)

for i in range(len(images)):
    model.visualise_single_image_prediction(images[i], results[i], filename=f"image_{i}.png")
    model.generate_transcript_for_single_image(results[i], ocr_results[i], filename=f"transcript_{i}.txt")

📄 ライセンス

提供されているモデルとデータセットは、個人、研究、非商業、非営利目的での使用に制限なく利用できます。それ以外の使用シナリオについては、メールで詳細な要件を説明し、カスタムライセンスの取り決めを行ってください。

連絡先はこちらのウェブサイトに記載されています: ragavsachdeva [dot] github [dot] io

@misc{sachdeva2024manga,
      title={The Manga Whisperer: Automatically Generating Transcriptions for Comics}, 
      author={Ragav Sachdeva and Andrew Zisserman},
      year={2024},
      eprint={2401.10224},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}