モデル選定

多言語OCR

# 多言語OCR

PP OCRv4 Mobile Det

PP - OCRv4_mobile_detはPaddleOCRチームによって開発された、モバイルデバイス向けに最適化された効率的なテキスト検出モデルで、エッジデバイスへのデプロイに適しています。

文字認識複数言語対応

PP OCRv5 Mobile Rec

PP-OCRv5_mobile_recはPaddleOCRチームが開発した最新世代のテキスト行認識モデルで、簡体字中国語、繁体字中国語、英語、日本語の4つの言語の認識をサポートし、様々な複雑なテキストシーンに適用できます。

文字認識複数言語対応

PP OCRv5 Server Rec

PP - OCRv5_server_recはPaddleOCRチームが開発した最新世代のテキスト行認識モデルで、多言語と複雑なテキストシーンの認識をサポートしています。

文字認識複数言語対応

Florence Base Mixed Line Bbox Ocr

Microsoft Florence-2ベースモデルをファインチューニングした画像からテキストへの変換モデルで、スウェーデン語と英語をサポートし、歴史的手書きテキスト認識と光学文字認識に特化しています。

画像生成テキスト

Mistral Small 1

Mistral-Small-3.1-24B-Instruct-2503をベースに構築された画像テキストをテキストに変換するモデルで、多言語処理に対応しています。

画像生成テキスト

Safetensors 複数言語対応

CreitinGameplays

Internvl3 2B AWQ

InternVL3-2BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデル（MLLM）で、優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などをサポートします。

Transformers その他

MiniCPM-V 2.6は強力なマルチモーダル大規模言語モデルで、スマートフォンなどのデバイスで高効率に動作し、単一画像、複数画像、動画の理解タスクをサポートします。

テキスト生成画像

Transformers その他

Paligemma2 3b Mix 224 Jax

PaliGemma 2はGemma 2を基にしたアップグレード版の視覚言語モデルで、多言語の画像テキスト入力とテキスト出力をサポートし、視覚言語タスク専用に設計されています

テキスト生成画像

Minicpm O 2 6 Int4

MiniCPM-o 2.6のint4量子化バージョンで、GPUのVRAM使用量を大幅に削減し、マルチモーダル処理能力をサポートします。

テキスト生成オーディオ

Transformers その他

Paligemma2 28b Mix 224

PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を統合し、多言語画像テキストインタラクションタスクをサポートします。

画像生成テキスト

Paligemma2 28b Mix 448

PaliGemma 2はGemma 2ベースの視覚言語モデルで、画像+テキスト入力をサポートし、テキスト応答を出力します。様々な視覚言語タスクに適しています。

画像生成テキスト

Paligemma2 10b Mix 224

PaliGemma 2はGemma 2をベースにした視覚言語モデルで、画像とテキストの入力をサポートし、テキスト出力を生成します。様々な視覚言語タスクに適しています。

画像生成テキスト

Paligemma2 3b Mix 448

PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを生成する出力を行い、さまざまな視覚言語タスクに適しています。

画像生成テキスト

TrOCRアーキテクチャに基づくデーヴァナーガリ光学文字認識モデルで、ネパール語/デーヴァナーガリ文字に特化してファインチューニングされています

Transformers その他

TrOCRベースの手書き文字モデルをファインチューニングしたタイ語と英語の光学文字認識モデルで、手書きテキスト行画像の処理に優れています

Transformers 複数言語対応

このモデルはウルドゥー語OCRタスク専用に訓練されており、単一行のウルドゥー語テキスト画像の処理に最適で、主に活字テキストに焦点を当てています。

Transformers その他

Trocr Medieval Cursiva

これはTrOCRベースの中世草書体識別モデルで、ラテン語、フランス語、イタリア語、スペイン語、カタルーニャ語の中世手書きテキストを識別するために特別に設計されています。

Transformers 複数言語対応

TrOCR-Ruは、microsoft/trocr-base-handwrittenをロシア語と英語の合成データセットでファインチューニングした光学文字認識モデルで、画像からテキストへの変換タスクに特化しています。

Transformers 複数言語対応

Trocr Base Finetune Numbers

TrOCRは、Transformerベースの光学文字認識モデルで、画像からテキストコンテンツを抽出するために使用されます。

画像生成テキスト

Transformers 英語

Transformerアーキテクチャに基づくOCRシステムで、中央クルド語のテキスト認識に特化しており、合成データを使用してトレーニングされています。

Pix2struct Ocrvqa Base

Pix2StructはOCR-VQAタスクでファインチューニングされた視覚質問応答モデルで、画像内のテキスト内容を解析し質問に答えることができます

画像生成テキスト

Transformers 複数言語対応

Pix2struct Docvqa Base

Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアで訓練され、画像キャプション生成や視覚QAなど複数のタスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

Pix2struct Chartqa Base

Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアデータによるマルチタスク学習を行い、特にチャートQAタスク向けにファインチューニングされています

テキスト生成画像

Transformers 複数言語対応

Donut Base Finetuned Latvian Receipts

このモデルはdonut-baseをラトビア領収書データセットで微調整したバージョンで、主に領収書画像処理タスクに使用されます

Doctr Torch Crnn Mobilenet V3 Large French

TensorFlow 2とPyTorchに基づく光学文字認識(OCR)モデルで、多言語テキストの検出と認識をサポート

Transformers 複数言語対応

Doctr Tf Crnn Vgg16 Bn French

TensorFlow 2とPyTorchに基づく光学文字認識技術、多言語文書認識をサポート

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase