モデル選定

構造化情報抽出

# 構造化情報抽出

PP-DocLayout-Lは高精度の文書レイアウト領域定位モデルで、RT-DETR-Lアーキテクチャに基づいており、23種類の一般的な文書レイアウトクラスの検出をサポートします。

文字認識複数言語対応

PP DocLayout Plus L

PP-DocLayout_plus-Lは高精度の文書レイアウト領域定位モデルで、RT-DETR-Lアーキテクチャに基づいて訓練され、20種類の一般的な文書要素の検出をサポートします。

文字認識複数言語対応

Nuextract 2.0 4B

NuExtract 2.0は、構造化情報抽出タスク用に訓練されたマルチモーダルモデルシリーズで、テキストと画像の入力をサポートし、多言語処理能力を備えています。

画像生成テキスト

Document Qa Model

LayoutLMv3-baseをファインチューニングしたドキュメントQAモデルで、OCRデータを利用してドキュメントを理解し関連する質問に答えることができます。

テキスト生成画像

Transformers 複数言語対応

Florence 2 DocVQA

マイクロソフトのFlorence-2モデルをDocmatixデータセット（データ量の5％）で1日間ファインチューニングしたバージョンで、画像テキスト理解タスクに適しています

テキスト生成画像

Phi 3 Mini 4k Instruct Graph

Phi-3-mini-4k-instruct-graphは、マイクロソフトのPhi-3-mini-4k-instructを微調整したバージョンで、一般的なテキストデータからエンティティ関係を抽出するために特別に設計されており、エンティティ関係グラフの生成においてGPT-4と同等の品質と精度を達成することを目指しています。

知識グラフ

Transformers 英語

EmergentMethods

Teenytinyllama 160m Text Simplification Ptbr

これはポルトガル語テキストの圧縮と構造化処理に特化した小型言語モデルで、33万件のポルトガル語テキストで訓練されています。

テキスト生成

Transformers その他

ICKGはVicuna-7Bを微調整した知識グラフ構築専用の命令追従型言語モデルで、テキスト文書から構造化された知識トリプルを抽出するのに優れています

知識グラフ

Llama 7b V1 Receipt Key Extraction

LLamA v1ベースの70億パラメータモデル、英語とアラビア語の領収書エントリからキー情報を抽出

大規模言語モデル

Transformers 複数言語対応

Finetune Donut Cord V2.5

これはDonutアーキテクチャに基づく視覚言語モデルで、CORD-V2データセットに対して特別にファインチューニングされており、文書画像からテキストへの変換タスクに使用されます。

画像生成テキスト

T5 Sentence To Triplet Xl

Flan-T5-XLモデルをファインチューニングした三重項抽出モデルで、テキストから主体-関係-客体の構造を識別するために使用されます

知識グラフ英語

Donut Base Medical Handwritten Prescriptions Information Extraction

Donutアーキテクチャに基づくモデルで、医療手書き処方箋から構造化情報を抽出するために使用されます

Donutアーキテクチャに基づくTransformerモデルで、運転免許証画像から構造化情報を抽出するために特別に設計

画像生成テキスト

Transformers 英語

Layoutlmv3 Finetuned Invoice

LayoutLMv3アーキテクチャをファインチューニングした請求書情報抽出モデルで、SROIEデータセットで優れた性能を発揮

Layoutlmv3 Cord Ner

LayoutLMv3-baseをファインチューニングした文書理解モデルで、CORDデータセットにおける固有表現認識タスク専用

Layoutlmv3 Large Finetuned Funsd

FUNSDデータセットを使用してLayoutLMv3-largeモデルをファインチューニングしたバージョンで、ドキュメントインテリジェント理解タスクに特化

Layoutlmv3 Base Finetuned Funsd

LayoutLMv3-baseモデルをFUNSDデータセットでファインチューニングしたドキュメントAIモデルで、フォーム理解タスクに使用されます

Layoutlmv2 Finetuned Cord

CORDデータセットでファインチューニングされたLayoutLMv2アーキテクチャに基づくドキュメント理解モデル、構造化ドキュメント情報抽出タスクに適しています

Layoutlmv2 Base Uncased Finetuned Docvqa

LayoutLMv2アーキテクチャに基づく文書ビジュアル質問応答モデルで、文書理解タスクに対して微調整されています。

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase