モデル選定

ドキュメント理解

# ドキュメント理解

Qwen2.5 VL 7B Instruct Quantized.w8a8

Qwen2.5-VL-7B-Instructの量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、INT8重み量子化により推論効率を最適化

画像生成テキスト

Transformers 英語

H2ovl Mississippi 800m

H2O.aiが開発した8億パラメータの視覚言語モデルで、OCRとドキュメント理解に優れた性能を発揮

画像生成テキスト

Transformers 英語

Idefics3 8B Llama3

Idefics3はオープンソースのマルチモーダルモデルで、任意のシーケンスの画像とテキスト入力を処理し、テキスト出力を生成できます。OCR、ドキュメント理解、視覚的推論において顕著な改善が見られます。

画像生成テキスト

Transformers 英語

Donut はTransformerベースの画像からテキストへのモデルで、画像からテキストコンテンツを抽出・生成できます。

画像生成テキスト

Fine Tuned Rvl Cdip

microsoft/layoutlmv3-baseモデルをドキュメント画像分類タスクでファインチューニングしたバージョンで、評価セットでF1スコア0.8177を達成

Donut Base Handwriting Recognition

naver-clova-ix/donut-baseをファインチューニングした手書き認識モデル

Docllm Baichuan2 7b

DocLLM_reimplementation はドキュメント理解タスクに特化した大規模言語モデルの再実装プロジェクトで、ドキュメント理解能力の再実装と改善を目的としています。

大規模言語モデル

JinghuiLuAstronaut

Yazawa/donut-base-sroieをファインチューニングしたドキュメント理解モデルで、構造化ドキュメント情報抽出タスクに適しています

Donut Receipt V3

naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途は明記されていない

大規模言語モデル

Donut Receipt V2

naver-clova-ix/donut-baseをファインチューニングしたモデルで、レシート認識やドキュメント理解タスクに使用可能

大規模言語モデル

Donut Base Sroie

naver-clova-ix/donut-baseを画像フォルダデータセットで微調整したモデル、具体的な用途は明記されていません

Donut Trained Example 3

Donutアーキテクチャに基づくファインチューニングモデル、具体的な用途と機能はより多くの情報が必要

大規模言語モデル

Donut Trained Example 2

naver-clova-ix/donut-baseをベースにファインチューニングしたモデル、具体的な用途は明記されていません

大規模言語モデル

Donut Base Receipt V3

naver-clova-ix/donut-baseをファインチューニングしたレシート認識モデル

大規模言語モデル

Donut Base Receipt

naver-clova-ix/donut-baseをファインチューニングしたレシート認識モデル

大規模言語モデル

naver-clova-ix/donut-baseをベースにファインチューニングしたモデル、具体的な用途は明記されていません

大規模言語モデル

これはCORD-v2データセットでファインチューニングされたDonutモデルで、画像からテキストへの変換タスク向けに設計されており、平均精度は0.901です。

画像生成テキスト

Layoutlmv3 Finetuned Funsd

microsoft/layoutlmv3-baseをnielsr/funsd-layoutlmv3データセットでファインチューニングしたドキュメント理解モデル

Donut Base Sroie

このモデルはnaver-clova-ix/donut-baseを画像フォルダデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています。

naver-clova-ix/donut-baseをファインチューニングした請求書処理モデル

画像生成テキスト

Donut Base Label Studio 200 Invoices

Donutアーキテクチャに基づく請求書認識モデル、200枚の請求書データセットで微調整

Donut Base Sroie

philschmid/donut-base-sroieをファインチューニングしたドキュメント理解モデル

Lilt Infoxlm Base

LiLT-InfoXLMは言語非依存のレイアウトトランスフォーマーモデルで、事前学習済みのInfoXLMと言語非依存レイアウトトランスフォーマー（LiLT）を組み合わせたもので、構造化ドキュメント理解タスクに適しています。

マルチモーダル融合

Donut Base Sroie

naver-clova-ix/donut-baseをファインチューニングしたドキュメント理解モデル、画像テキスト抽出タスクに適しています

CORD-v2データセットでファインチューニングされたVisionEncoderDecoderモデル、ドキュメント理解タスク用

Layoutlmv3 Finetuned Wildreceipt

LayoutLMv3-baseモデルをWildReceipt領収書データセットでファインチューンしたバージョンで、領収書のキー情報抽出タスクに使用されます

Theivaprakasham

Layoutlmv3 Finetuned Invoice

LayoutLMv3アーキテクチャをファインチューニングした請求書情報抽出モデルで、SROIEデータセットで優れた性能を発揮

Layoutlmv3 Finetuned Invoice

請求書データセットでLayoutLMv3-baseをファインチューニングしたバージョンで、請求書情報抽出に使用

Theivaprakasham

Layoutlmv3 Finetuned Cord

LayoutLMv3をCORDデータセットでファインチューニングしたドキュメント理解モデルで、ドキュメントトークン分類タスクに優れています

Layoutlmv3 Finetuned Funsd

LayoutLMv3-baseモデルをFUNSDデータセットでファインチューニングしたドキュメント理解モデルで、フォームやドキュメントのトークン分類タスクに優れています

Layoutlmv2 Finetuned Cord

microsoft/layoutlmv2-base-uncasedモデルを未知のデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています

Layoutlmv2 Finetuned Cord

CORDデータセットでファインチューニングされたLayoutLMv2アーキテクチャに基づくドキュメント理解モデル、構造化ドキュメント情報抽出タスクに適しています

Layoutlmv2 Finetuned Funsd

Microsoft LayoutLMv2 モデルを FUNSD データセットでファインチューニングしたドキュメント理解モデル

Layoutlmv2 Finetuned Sroie Mod

microsoft/layoutlmv2-base-uncasedをファインチューニングしたドキュメント理解モデル、構造化文書情報抽出タスクに適応

大規模言語モデル

Theivaprakasham

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase