モデル選定

高精度OCR

# 高精度OCR

En PP OCRv4 Mobile Rec

PaddleOCRチームが開発した超軽量級の英文テキスト行認識モデルで、英文と数字文字の認識をサポートします。

文字認識複数言語対応

SLANeXt_wiredは表構造認識に使用されるディープラーニングモデルで、編集できない表画像を編集可能な表形式（HTMLなど）に変換することができます。

文字認識複数言語対応

PP OCRv5 Server Det

PP-OCRv5_server_detはPaddleOCRチームが開発した最新世代のテキスト検出モデルで、高性能なアプリケーションシーン向けに設計されており、手書き、縦書き、回転、湾曲したテキストを含む様々なシーンのテキストを検出でき、複数の言語を認識できます。

文字認識複数言語対応

Llama 3.1 Nemotron Nano VL 8B V1

Llama-3.1-Nemotron-Nano-VL-8B-V1は、高度な文書インテリジェントビジュアル言語モデルで、画像や動画のクエリと要約が可能で、複数の環境にデプロイできます。

画像生成テキスト

Olmocr 7B Faithful

olmOCR-7B-0225-previewをファインチューニングしたバージョンで、文書内の全ての情報（ヘッダー・フッター内容を含む）を完全に抽出することに特化しています。

大規模言語モデル

Transformers 英語

Qwen2.5-VL-32B-InstructはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、マルチモーダルタスク処理をサポートします。

画像生成テキスト

Transformers 複数言語対応

Qwen2.5 VL 32B Instruct Exl2 4 25bpw

Qwen2.5-VL-32B-Instruct は Qwen ファミリーの最新の視覚言語モデルで、強力なマルチモーダル理解と生成能力を備え、画像、動画、テキストのインタラクションをサポートします。

テキスト生成画像

Transformers 英語

christopherthompson81

Sapnous-6Bは先進的な視覚言語モデルで、強力なマルチモーダル能力により世界の知覚と理解を向上させます。

画像生成テキスト

Transformers 英語

Aya Vision 32BはCohereラボが開発したオープンウェイト32Bパラメータのマルチモーダルモデルで、23言語の視覚言語タスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

Qwen2.5 VL 72B Instruct AWQ

Qwen2.5-VLは通義千問チームが開発したマルチモーダル大規模言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、画像、動画、テキストなど様々な入力形式をサポートします。

テキスト生成画像

Transformers 英語

Typhoon2 Qwen2vl 7b Vision Instruct

Typhoon2-Visionはタイ語をサポートする視覚言語モデルで、画像や動画の入力を処理でき、特に画像ベースのアプリケーション向けに最適化されています。

テキスト生成画像

Transformers 複数言語対応

Paligemma2 3b Mix 224

PaliGemma 2はGoogleが開発したアップグレード版の視覚言語モデルで、Gemma 2の能力を組み合わせ、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。

画像生成テキスト

TF-IDは学術論文から表や図表およびそのキャプションを抽出するための物体検出モデルシリーズです。

画像生成テキスト

TF-IDは学術論文中の表や図表を抽出するために特別に設計された視覚的物体検出モデルで、Florence-2をファインチューニングして作成されました

Pix2text Mfr Quantized

Pix2Textの数式認識(MFR)モデルで、TrOCRアーキテクチャに基づいて訓練され、数式画像をLaTeXテキスト表現に変換します。

Pix2Textの数式検出(MFD)モデル、画像中の数式を認識する

文字認識その他

SparrowはDonut MLベースモデルを請求書データで微調整した文書データ抽出モデルで、Donutの企業文書における性能検証を目的としています。

画像生成テキスト

Transformers 英語

SparrowはDonut MLベースモデルを請求書データで微調整した文書データ抽出ツールで、企業文書におけるDonutの性能検証を目的としています。

画像生成テキスト

Transformers 英語

このモデルはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。

OCR TextInput Base

金融分野に特化した画像からテキストへの変換モデルで、英文テキスト認識をサポートし、主に金融文書の画像内容を処理します。

Transformers 英語

Output LayoutLMv3 V7

microsoft/layoutlmv3-baseをファインチューニングしたドキュメント理解モデルで、ドキュメントレイアウト分析タスクに優れています

MiniCPM-V 2.0は効率的なエンドサイド展開に向けた強力なマルチモーダル大規模言語モデルで、SigLip-400MとMiniCPM-2.4Bを基盤に構築され、知覚器リサンプラーで接続されています。

テキスト生成画像

Transformers 複数言語対応

Trocr Base Plate Number

画像からナンバープレート番号を抽出できる車両ナンバープレート認識用の視覚モデルです。

MoAIは大規模な言語と視覚の混合モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。

画像生成テキスト

Pix2Textの数式認識(MFR)モデルで、TrOCRアーキテクチャで訓練されており、数式画像をLaTeXテキスト表現に変換できます。

Trocr Base Printed License Plates Ocr Timestamp

microsoft/trocr-base-printedをファインチューニングしたOCRモデルで、ナンバープレートとタイムスタンプ情報の認識に特化

Nougat For Formula

Nougat-smallをファインチューニングした数式認識モデルで、画像からLaTeX数式コードを抽出するのに優れています

画像生成テキスト

CORD-v2は、画像からテキストを抽出・認識するタスク向けのモデルで、主に画像からテキストコンテンツを抽出するために使用されます。

Finetune Donut Cord V2.5

これはDonutアーキテクチャに基づく視覚言語モデルで、CORD-V2データセットに対して特別にファインチューニングされており、文書画像からテキストへの変換タスクに使用されます。

画像生成テキスト

このモデルは旧式です。公式のNougatモデルの使用を推奨します。Nougatは、ドキュメント理解と分析に特化した先進的な視覚言語モデルです。

画像生成テキスト

e13b MICRコードの転写に特化したOCRモデルで、MicrosoftのTrOCR-large-stage1をファインチューニングしたものです。

Transformers 英語

Pix2struct Tiny Random

これはMITライセンスに基づく画像からテキストへの変換モデルで、画像の内容を記述的なテキストに変換できます。

画像生成テキスト

General Image Captioning

これはApache-2.0ライセンスに基づく画像からテキストへの変換モデルで、画像の内容をテキスト記述に変換できます。

Transformers その他

naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途と機能は追加情報が必要

画像生成テキスト

Layoutlmv3 Finetuned DocLayNet

LayoutLMv3アーキテクチャをファインチューニングしたドキュメントレイアウト分析モデルで、DocLayNetデータセット内のドキュメント要素分類タスク専用に設計されています。

Transformers 英語

Invoices Donut Model V1

SparrowはDonut ML基本モデルを請求書データで微調整した文書データ抽出モデルで、企業文書におけるDonutの性能検証を目的としています。

画像生成テキスト

Transformers 英語

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

これはMITライセンスに基づく画像テキスト変換モデルで、画像の内容をテキスト説明に変換できます。

画像生成テキスト

これはCORD-v2データセットでファインチューニングされたDonutモデルで、画像からテキストへの変換タスク向けに設計されており、平均精度は0.901です。

画像生成テキスト

Layoutlmv3 Finetuned Funsd

microsoft/layoutlmv3-baseをnielsr/funsd-layoutlmv3データセットでファインチューニングしたドキュメント理解モデル

MGP-STRは純粋なビジュアルシーンテキスト認識モデルで、マルチグレイン予測により効率的なOCRを実現します。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase