モデル選定

画像からテキストへ

# 画像からテキストへ

Florence Base Mixed Line Bbox Ocr

Microsoft Florence-2ベースモデルをファインチューニングした画像からテキストへの変換モデルで、スウェーデン語と英語をサポートし、歴史的手書きテキスト認識と光学文字認識に特化しています。

画像生成テキスト

Vit Gpt2 Image Captioning

これはViTとGPT2アーキテクチャに基づく画像説明生成モデルで、入力された画像に対して自然言語の説明を生成できます。

画像生成テキスト

Sarashina2 Vision 8b

Sarashina2-Vision-8BはSB Intuitionsによってトレーニングされた日本の大規模視覚言語モデルで、Sarashina2-7BとQwen2-VL-7Bの画像エンコーダーを基にしており、複数のベンチマークテストで優れたパフォーマンスを発揮しています。

画像生成テキスト

Transformers 複数言語対応

Bpe Vocab N OCR

Bpe-vocab-n-OCR はOCRベースの高度なテキスト抽出ツールで、構造化された分かち書き出力を生成するために最適化されています。

画像生成テキスト

Transformers 複数言語対応

Sdxl Aam Xl Anime Mix

Stable Diffusion XLを基にしたアニメスタイル画像生成モデルで、画像からテキストへの変換をサポート

BLIP Radiology Model

transformersライブラリを基にした画像からテキストへのモデルで、画像の内容を記述的なテキストに変換することをサポートします。

画像生成テキスト

TrOCRアーキテクチャに基づくデーヴァナーガリ光学文字認識モデルで、ネパール語/デーヴァナーガリ文字に特化してファインチューニングされています

Transformers その他

Trocr Math Handwritten

TrOCRはTransformerベースのOCRモデルで、手書き数学式の認識に特化しています

画像生成テキスト

Donut はTransformerベースの画像からテキストへのモデルで、画像からテキストコンテンツを抽出・生成できます。

画像生成テキスト

Paligemma 3b Mix 448 Ft TableDetection

google/paligemma-3b-mix-448をファインチューニングしたマルチモーダル表検出モデルで、画像内の表領域を識別するために特化

画像生成テキスト

Trocr Base Finetune Numbers

TrOCRは、Transformerベースの光学文字認識モデルで、画像からテキストコンテンツを抽出するために使用されます。

画像生成テキスト

Transformers 英語

InfiMM-HDは高解像度マルチモーダルモデルで、画像とテキストを組み合わせたコンテンツを理解し生成できます。

画像生成テキスト

Transformers 英語

このモデルはマイクロソフトのTrOCR活字モデルのファインチューニング版で、シンハラ文字のOCR認識タスク専用に設計されています。

Transformers その他

Hugging Face Transformersに基づく光学文字認識モデルで、MNISTスタイルの数字画像の識別に特化

Transformers 英語

Trocr Base Printed Captcha Ocr

マイクロソフトのtrocr-base-printedモデルをファインチューニングしたCAPTCHA認識モデルで、印刷体テキストのOCRタスク専用に設計されています

Image Caption Using ViT GPT2

これはVision Transformer(ViT)とGPT2アーキテクチャに基づく画像説明生成モデルで、入力画像に対して自然言語の説明を生成できます。

画像生成テキスト

Trocr Base Fa V2

これはTransformerベースのOCRモデルで、ペルシャ語のテキスト画像認識に特化しています。

文字認識その他

日本漫画の日本語テキストに特化した光学文字認識モデル

Transformers 日本語

Vit Gpt2 Verifycode Caption

60000枚の画像トレーニングセットでファインチューニングされたVit-GPT2アーキテクチャのキャプチャ認識モデルで、画像内のキャプチャテキストを正確に認識できます。

画像生成テキスト

Trocr Small Korean

TrOCRは視覚エンコーダ-デコーダアーキテクチャに基づく韓国語画像からテキストへの変換モデルで、DeiTを画像エンコーダ、RoBERTaをテキストデコーダとして使用しています。

画像生成テキスト韓国語

Donut Base Sroie

naver-clova-ix/donut-baseを画像フォルダデータセットで微調整したモデル、具体的な用途は明記されていません

Donut Base Finetuned SOGC Archive Trademarks 1883 2001

歴史的な商標文書を識別および解析する多言語画像からテキストへの変換モデルで、ドイツ語、イタリア語、フランス語をサポートしています。

画像生成テキスト

Transformers 複数言語対応

ヘブライ語の画像からテキストへのOCRモデルで、画像内のヘブライ語文字を認識できます。

Transformers その他

Mangaocr Hoogberta V2

TrOCRアーキテクチャに基づく日本語漫画テキスト認識モデルで、漫画画像からテキスト内容を抽出するために特別に設計されています。

画像生成テキスト

Trocr Base Handwritten OCR Handwriting Recognition V2

マイクロソフトのtrocr-base-handwrittenを微調整した手書きOCRモデルで、評価データセットにおける文字誤り率(CER)は0.0360

Transformers 英語

Trocr Processor

TrOCRはTransformerベースの光学文字認識モデルで、手書きテキスト認識用に設計されており、IAM手書きデータベースでファインチューニングされています。

画像生成テキスト

マイクロソフトGIT-baseをファインチューニングした衛星画像説明生成モデルで、NASA地球観測所の画像に短い説明を生成します

画像生成テキスト

Transformers その他

Pix2struct Docvqa Base

Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアで訓練され、画像キャプション生成や視覚QAなど複数のタスクをサポートします。

画像生成テキスト

Transformers 複数言語対応

Pix2struct Ai2d Base

Pix2Structは視覚言語理解モデルで、科学図表の視覚的質問応答(VQA)タスクに特化してファインチューニングされています

テキスト生成画像

Transformers 複数言語対応

Trocr Base Printed Captcha Ocr

microsoft/trocr-base-printedを基に微調整したキャプチャOCRモデルで、画像キャプチャからテキストを抽出します。

Transformers 英語

Movie Picture Captioning

このモデルは映画の説明文体で任意の写真のキャプションを生成でき、トレーニングデータは映画ポスターとあらすじから得られ、主に娯楽目的で使用されます。

画像生成テキスト

Transformers その他

Git Large Vatex

GITはCLIP画像トークンとテキストトークンの条件付けに基づくトランスフォーマーデコーダーで、画像やビデオの記述生成、視覚的質問応答などのタスクに使用されます。

画像生成テキスト

Transformers 複数言語対応

Donut Base Sroie

このモデルはnaver-clova-ix/donut-baseを画像フォルダデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています。

Ko Trocr Base Nsmc News Chatbot

これは韓国語テキスト認識のためのコンセプト検証モデルで、TrOCRアーキテクチャに基づいて訓練され、画像から韓国語テキストを認識できます。

画像生成テキスト

Transformers 韓国語

naver-clova-ix/donut-baseをファインチューニングした請求書処理モデル

画像生成テキスト

Donut Base Sroie

philschmid/donut-base-sroieをファインチューニングしたドキュメント理解モデル

韓国語と英語をサポートする事前学習済み視覚エンコーダテキストデコーダモデル

画像生成テキスト

Transformers 複数言語対応

Donut Base Medical Handwritten Prescriptions Information Extraction

Donutモデルをファインチューニングした手書き医療処方箋テキスト抽出モデルで、医療処方箋画像からテキスト情報を抽出するために特別に設計されています。

画像生成テキスト

Trocr Base Printed

microsoft/trocr-base-printedをベースにした派生モデルで、印刷テキストのOCR認識タスクに特化しています。

Doctr Torch Crnn Mobilenet V3 Large French

TensorFlow 2とPyTorchに基づく光学文字認識(OCR)モデルで、多言語テキストの検出と認識をサポート

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase