Bpe-vocab-n-OCRオープンソーステキスト抽出ツール - 無料でデプロイして構造化された形態素解析出力を生成

ホーム

Bpe Vocab N OCR

prithivMLmodsによって開発

Bpe-vocab-n-OCR はOCRベースの高度なテキスト抽出ツールで、構造化された分かち書き出力を生成するために最適化されています。

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #構造化OCR #多言語分かち書き #画像からテキストへ

ダウンロード数 76

リリース時間 : 2/18/2025

モデル概要

このツールは強力な視覚-言語アーキテクチャに基づいており、強化されたOCRと多言語サポート機能を備え、画像から正確にテキストを抽出し、カンマ区切りのシーケンス形式で返します。

モデル特徴

先進的なOCRエンジン

大規模なデータセットで微調整され、正確なテキスト認識と分かち書きを保証します。

最適化された分かち書き出力

構造化されたカンマ区切りテキストを生成し、下流のNLPタスク、自動化プロセス、データベース統合に最適です。

強化された多言語OCRサポート

英語、中国語、日本語、韓国語、アラビア語など、複数言語のテキスト抽出をサポートします。

マルチモーダル処理

画像とテキスト入力をシームレスに処理し、構造化された分かち書き出力を提供します。

安全で最適化されたモデルウェイト

safetensorsを使用して効率的で安全なモデルロードを実現します。

モデル能力

テキスト抽出

画像分析

多言語サポート

構造化出力

使用事例

自動化プロセス

文書処理

スキャンした文書からテキストを抽出し、構造化データを生成します。

文書処理効率を向上させ、人的介入を削減します。

データベース統合

データ入力

画像内のテキストを構造化データに変換し、データベースに入力します。

データ入力プロセスを簡素化し、正確性を向上させます。

🚀 Bpe-vocab-n-OCR

Bpe-vocab-n-OCR は、構造化されたトークン化出力を生成するように最適化された、高度なOCRベースのテキスト抽出ツールです。強力なビジョン言語アーキテクチャをベースに構築され、OCR機能と多言語サポートが強化されており、画像からテキストを正確に抽出し、カンマ区切りのシーケンスとして返します。

✨ 主な機能

主要な機能強化点:

高度なOCRエンジン：広範なデータセットで微調整され、Bpe-vocab-n-OCRは正確なテキスト認識とトークン化を保証します。
トークン化出力に最適化：構造化されたカンマ区切りのテキストを生成し、下流のNLPタスク、自動化パイプライン、およびデータベース統合に最適です。
強化された多言語OCR：英語、中国語、日本語、韓国語、アラビア語など、複数の言語でのテキスト抽出をサポートします。
マルチモーダル処理：画像とテキストの入力をシームレスに処理し、構造化されたトークン化出力を提供します。
安全で最適化されたモデルウェイト：効率的かつ安全なモデルロードのためにsafetensorsを採用しています。

📦 インストール

このセクションでは、原READMEにインストール手順が具体的に記載されていないため、この項目をスキップします。

💻 使用例

基本的な使用法

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

# Load the Bpe-vocab-n-OCR model with optimized parameters
model = Qwen2VLForConditionalGeneration.from_pretrained(
    "prithivMLmods/Tokenized-OCR", torch_dtype="auto", device_map="auto"
)

# Recommended acceleration for performance optimization:
# model = Qwen2VLForConditionalGeneration.from_pretrained(
#     "prithivMLmods/Tokenized-OCR",
#     torch_dtype=torch.bfloat16,
#     attn_implementation="flash_attention_2",
#     device_map="auto",
# )

# Load the default processor for Bpe-vocab-n-OCR
processor = AutoProcessor.from_pretrained("prithivMLmods/Tokenized-OCR")

# Define the input messages with both an image and a text prompt
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://flux-generated.com/sample_image.jpeg",
            },
            {"type": "text", "text": "Extract and return the tokenized OCR text from the image, ensuring each word is accurately recognized and separated by commas."},
        ],
    }
]

# Prepare the input for inference
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# Generate the output
generated_ids = model.generate(**inputs, max_new_tokens=256)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)