Model Selection

OCR強化

# OCR強化

画像内容をテキスト情報に変換することに特化したモデルで、幅広い応用価値があります。

画像生成テキスト

TensorBoard Other

Webssl Mae700m Full2b 224

これは7億パラメータの視覚Transformerモデルで、マスク付き自己符号化器による自己教師あり学習手法を用いて、20億のウェブ画像で言語監督なしに訓練されています。

Aya Vision 8Bはオープンウェイトの80億パラメータ多言語視覚言語モデルで、23言語の視覚と言語タスクをサポートします。

画像生成テキスト

Transformers Supports Multiple Languages

Turkish LLaVA V0.1

マルチモーダル視覚指示追従タスク専用に設計されたトルコ語視覚言語モデルで、視覚（画像）とテキスト入力を同時に処理し、トルコ語で提供される指示を理解して実行できます。

画像生成テキスト

Safetensors Other

Vit Intern300m Patch14 448.ogvl Dist

InternViT-300MはOpenGVLabチームによって開発された視覚Transformerモデルで、InternViT-6Bから蒸留された事前学習モデルであり、様々な視覚タスクをサポートします。

Idefics3 8B Llama3

Idefics3はオープンソースのマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を処理し、テキスト出力を生成できます。OCR、ドキュメント理解、視覚的推論において顕著な改善が見られます。

画像生成テキスト

Transformers English

Florence 2 Large

Florence-2はマイクロソフトが開発した先進的なビジョンファウンデーションモデルで、プロンプトベースのアプローチにより幅広い視覚と言語タスクを処理します。

テキスト生成画像

Internvit 300M 448px

InternViT-300M-448pxは、InternViT-6B-448px-V1-5から知識蒸留によって開発された効率的な視覚基盤モデルで、448×448の動的入力解像度を備え、1から40のパッチ処理をサポートします。

テキスト生成画像

Idefics2 8b Chatty

Idefics2はオープンなマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を受け取り、テキスト出力を生成できます。このモデルは画像に関する質問に答えたり、視覚的コンテンツを説明したり、複数の画像に基づいてストーリーを作成したり、純粋な言語モデルとして使用したりできます。

画像生成テキスト

Transformers English

Internvit 6B 448px V1 5

InternViT-6B-448px-V1-5はInternViT-6B-448px-V1-2をファインチューニングした視覚基盤モデルで、強力なロバスト性、OCR能力、高解像度処理能力を備えています。

テキスト生成画像

Pix2text Table Rec

マイクロソフトTable Transformerを基に開発した表構造認識モデルで、ドキュメント内の表検出と認識タスクに使用

Donut Base Handwriting Recognition

naver-clova-ix/donut-baseをファインチューニングした手書き認識モデル

Internvit 6B 448px V1 2

InternViT-6B-448px-V1-2は、5540万パラメータを持つ視覚基盤モデルで、448x448ピクセルの画像処理をサポートしています。

テキスト生成画像

Sampel2 Docqa Layoutlmv3 Base

microsoft/layoutlmv2-base-uncasedをファインチューニングしたドキュメントQAモデル、具体的なトレーニングデータセットは不明

質問応答システム

Cogagent Vqa Hf

CogAgentはCogVLMを改良したオープンソースの視覚言語モデルで、シングルターンの視覚質問応答タスクに特化しています

テキスト生成画像

Transformers English

Cogagent Chat Hf

CogAgentはCogVLMを改良したオープンソースの視覚言語モデルで、GUIエージェント、視覚的多輪対話、視覚的定位などの能力を備えています。

テキスト生成画像

Transformers English

Testdocumentquestionanswering

LayoutLMv2アーキテクチャに基づく文書視覚質問応答モデルで、DocVQAタスク向けにファインチューニングされています

画像生成テキスト

このモデルはmicrosoft/layoutlmv2-base-uncasedをgeneratorデータセットでファインチューニングしたバージョンで、ドキュメント理解とレイアウト分析タスクに適しています。

大規模言語モデル

Donut Receipt V3

naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途は明記されていない

大規模言語モデル

Layoutlmv2 Base Uncased Finetuned Docvqa

LayoutLMv2アーキテクチャに基づく文書視覚QAモデル、文書理解タスク向けにファインチューニング

テキスト生成画像

Layoutlmv2 Base Uncased Finetuned Docvqa

LayoutLMv2アーキテクチャに基づくドキュメント視覚質問応答モデルで、ドキュメント理解タスク向けに特別にファインチューニングされています

画像生成テキスト

Donut Base Sroie

naver-clova-ix/donut-baseをファインチューニングした文書理解モデルで、構造化文書情報抽出タスクに特化

naver-clova-ix/donut-baseをファインチューニングした文書理解モデル、画像フォルダデータセットに適応

Layoutlmv2 Base Uncased Finetuned Docvqa V2

このモデルはmicrosoft/layoutlmv2-base-uncasedをドキュメント視覚QAタスクでファインチューニングしたバージョンで、ドキュメント画像内のテキストとレイアウト情報の処理に特化しています。

画像生成テキスト

Donut Base Sroie

naver-clova-ix/donut-baseを画像フォルダデータセットで微調整したモデルで、ドキュメント理解タスクに適しています

Donut Base Sroie

このモデルはnaver-clova-ix/donut-baseを画像フォルダデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています。

Donut Base Payslips

Donutアーキテクチャに基づく文書理解モデルで、給与明細画像処理に特化してファインチューニング

Donut Base Medical Handwritten Blocks Data Extraction

Donutアーキテクチャに基づくモデルで、医療手書き文書から構造化データを抽出するために特別に設計されています

Donut Base Sroie

naver-clova-ix/donut-baseをファインチューニングしたドキュメント理解モデル、画像テキスト抽出タスクに適しています

このモデルはMITライセンスに基づくオープンソースモデルで、CER（文字誤り率）が0.0019と、特定のタスクにおいて高い精度を有しています。

大規模言語モデル

Layoutlmv2 Large Uncased Finetuned Infovqa

LayoutLMv2アーキテクチャに基づく文書理解モデルで、InfoVQAタスクに対して微調整されています。

質問応答システム

Layoutlmv2 Base Uncased Finetuned Docvqa

LayoutLMv2アーキテクチャに基づく文書ビジュアル質問応答モデルで、文書理解タスクに対して微調整されています。

テキスト生成画像

Layoutlm Finetuned Funsd

これはFUNSDデータセットでファインチューニングされたLayoutLMモデルで、ドキュメント/フォームのタグ分類タスク専用です。

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers English

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase