# 構造化データ抽出

Visionocr 3B 061125 GGUF
Apache-2.0
Qwen2.5-VL-3B-Instructをベースに微調整されたビジュアルOCRモデルで、ドキュメントレベルのOCR、長文脈の視覚言語理解、数学のLaTeX形式変換に特化しています。
画像生成テキスト Transformers 英語
V
prithivMLmods
131
1
RT DETR L Wireless Table Cell Det
Apache-2.0
RT-DETR-L_wireless_table_cell_detは高精度の表セル検出モデルで、表認識タスク用に設計されており、表画像内の各セル領域を正確に位置決めしてマーキングすることができます。
文字認識 複数言語対応
R
PaddlePaddle
1,144
0
RT DETR L Wired Table Cell Det
Apache-2.0
RT - DETR - L_wired_table_cell_detは表認識タスクの重要なモジュールで、主に表画像内の各セル領域を位置決めしてマーキングする役割を担います。
文字認識 複数言語対応
R
PaddlePaddle
1,144
0
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instructは、マルチモーダルタスクに適した、強化された数学力と問題解決能力を備えた強力なビジュアル言語モデルです。
画像生成テキスト 英語
Q
unsloth
464
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VLはQwenファミリー最新のビジュアル言語モデルで、強力な視覚理解とマルチモーダル処理能力を備え、画像・動画分析と構造化出力をサポートします。
画像生成テキスト 英語
Q
unsloth
8,427
4
Qwen2.5 VL 3B Instruct GGUF
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とマルチモーダル処理能力を備えています。
画像生成テキスト 英語
Q
unsloth
4,645
4
Docscopeocr 7B 050425 Exp
Apache-2.0
docscopeOCR-7B-050425-expは、Qwen/Qwen2.5-VL-7B-Instructをベースに微調整されたモデルで、ドキュメントレベルのOCR、長文脈のビジュアル言語理解、および数学のLaTeX形式の正確な画像からテキストへの変換に特化しています。
画像生成テキスト Transformers 複数言語対応
D
prithivMLmods
531
2
Qwen2.5 VL 32B Instruct Exl2 4 25bpw
Apache-2.0
Qwen2.5-VL-32B-Instruct は Qwen ファミリーの最新の視覚言語モデルで、強力なマルチモーダル理解と生成能力を備え、画像、動画、テキストのインタラクションをサポートします。
テキスト生成画像 Transformers 英語
Q
christopherthompson81
68
3
Qwen2.5 VL Instruct 3B Geo
Apache-2.0
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、視覚理解とエージェント能力の強化に焦点を当てています。
テキスト生成画像 Transformers 英語
Q
kxxinDave
29
2
Qwen2.5 VL 72B Instruct AWQ Fix
その他
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とエージェント能力を備え、マルチフォーマットの視覚位置特定と構造化出力生成をサポートします。
画像生成テキスト Transformers 英語
Q
Benasd
94
1
Qwen2.5 VL 72B Instruct AWQ
その他
Qwen2.5-VLは通義千問チームが開発したマルチモーダル大規模言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、画像、動画、テキストなど様々な入力形式をサポートします。
テキスト生成画像 Transformers 英語
Q
Benasd
173
6
Qwen2.5 VL 72B Instruct Pointer AWQ
その他
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強化された視覚理解、エージェント能力、構造化出力生成機能を備えています。
画像生成テキスト Transformers 英語
Q
PointerHQ
5,592
8
Qwen2.5 VL 7B Instruct AWQ
Apache-2.0
Qwen2.5-VLは通義千問が開発したマルチモーダル視覚言語モデルで、強力な画像理解とテキスト生成能力を備えています。
画像生成テキスト Transformers 英語
Q
Benasd
226
7
Qwen2.5 VL 3B Instruct 4bit
Qwen2.5-VLはQwenファミリーの最新ビジョン・ランゲージモデルで、強化された視覚理解、エージェント機能、長尺動画処理能力を備えています。
テキスト生成画像 Transformers 英語
Q
jarvisvasu
174
3
Gemma 2 2B TR Knowledge Graph
Gemma-2-2B-TR-Knowledge-Graphはgemma-2-2b-itをベースに微調整されたモデルで、文書内容から構造化知識グラフを生成することに特化しています。
知識グラフ Safetensors その他
G
Metin
122
23
Fintabqa
MIT
LayoutLMアーキテクチャに基づく金融表形式質問応答モデルで、金融表からの構造化質問の抽出と回答に特化しています。
質問応答システム Transformers 英語
F
ethanbradley
128
0
Output LayoutLMv3 V7
microsoft/layoutlmv3-baseをファインチューニングしたドキュメント理解モデルで、ドキュメントレイアウト分析タスクに優れています
文字認識 Transformers
O
Noureddinesa
18
1
Table Transformer Detection Custom Ale
MIT
DETRアーキテクチャに基づく表検出モデルで、ドキュメントから表領域を識別するために特別に設計
文字認識 Transformers
T
aParadigmP
44
0
Trained Model
このモデルはmicrosoft/layoutlmv2-base-uncasedをgeneratorデータセットでファインチューニングしたバージョンで、ドキュメント理解とレイアウト分析タスクに適しています。
大規模言語モデル Transformers
T
vfu
14
0
Donut Receipt V2
MIT
naver-clova-ix/donut-baseをファインチューニングしたモデルで、レシート認識やドキュメント理解タスクに使用可能
大規模言語モデル Transformers
D
mychen76
31
0
Donut Demo
MIT
CORD-v2は、画像からテキストを抽出・認識するタスク向けのモデルで、主に画像からテキストコンテンツを抽出するために使用されます。
文字認識 Transformers
D
zhongren2
20
0
Model3
MIT
naver-clova-ix/donut-base-finetuned-cord-v2を微調整した文書画像理解モデル
画像生成テキスト Transformers
M
sunilsai
13
0
Donut Base Finetuned Cord V2
DonutはSwin Transformerベースの視覚的文書理解モデルで、CORDデータセットに特化してファインチューニングされており、画像から構造化されたテキスト情報を抽出できます。
画像生成テキスト Transformers
D
Xenova
32
0
Table Detection
MIT
DETRアーキテクチャに基づくテーブル検出モデルで、非構造化文書からテーブルを識別・抽出するために特別に設計
物体検出 Transformers
T
grays-ai
17
0
Donut Base Sroie
MIT
naver-clova-ix/donut-baseを画像フォルダデータセットで微調整したモデル、具体的な用途は明記されていません
文字認識 Transformers
D
iamkhadke
13
0
Thesisdonut
MIT
naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途と機能は追加情報が必要
画像生成テキスト Transformers
T
Humayoun
13
0
Donut Base Receipt V3
MIT
naver-clova-ix/donut-baseをファインチューニングしたレシート認識モデル
大規模言語モデル Transformers
D
hyunguk1
13
0
All Format
MIT
philschmid/donut-base-sroieを微調整したモデルで、画像処理タスクに適しています
文字認識 Transformers
A
dreeven
17
0
Donut Base Finetuned Latvian Receipts V2
MIT
Donutアーキテクチャに基づくモデルで、ラトビア領収書データに特化して微調整されています
文字認識 Transformers
D
Inesence
13
0
Donut Base Finetuned Latvian Receipts
MIT
このモデルはdonut-baseをラトビア領収書データセットで微調整したバージョンで、主に領収書画像処理タスクに使用されます
文字認識 Transformers
D
Inesence
31
0
Yolov8n Table Extraction
YOLOv8ベースの表検出モデルで、文書内の表領域を識別可能。枠線あり/なし両方の表タイプに対応。
物体検出 TensorBoard
Y
keremberke
474
13
Donut Base Sroie
MIT
このモデルはnaver-clova-ix/donut-baseを画像フォルダデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています。
文字認識 Transformers
D
unstructuredio
31
1
Donut Base Sroie
MIT
philschmid/donut-base-sroieをファインチューニングしたドキュメント理解モデル
文字認識 Transformers
D
Prem11100
13
0
Donut Base Medical Handwritten Blocks Data Extraction
MIT
Donutアーキテクチャに基づくモデルで、医療手書き文書から構造化データを抽出するために特別に設計されています
文字認識 Transformers
D
mjawadazad2321
15
1
DETR Table Detection
Table TransformerはDETRアーキテクチャに基づく表検出モデルで、文書画像から表構造を検出・認識するために特別に設計されています。
文字認識 Transformers 英語
D
SalML
17
2
Donut Base Sroie
MIT
naver-clova-ix/donut-baseをファインチューニングしたドキュメント理解モデル、画像テキスト抽出タスクに適しています
文字認識 Transformers
D
philschmid
185
3
Layoutlmv3 Finetuned Invoice
LayoutLMv3-baseをSROIEデータセットでファインチューニングした請求書情報抽出モデルで、トークン分類タスクで優れた性能を発揮
文字認識 Transformers
L
oussama
52
5
Layoutlmv3 Finetuned Cord
LayoutLMv3をCORDデータセットでファインチューニングしたドキュメント理解モデルで、ドキュメントトークン分類タスクに優れています
文字認識 Transformers
L
nielsr
617
12
Layoutlmv2 Finetuned Sroie Mod
microsoft/layoutlmv2-base-uncasedをファインチューニングしたドキュメント理解モデル、構造化文書情報抽出タスクに適応
大規模言語モデル Transformers
L
Theivaprakasham
37
1
Layoutlmv2 Finetuned Sroie
LayoutLMv2アーキテクチャに基づき、SROIEデータセットで微調整された文書情報抽出モデルで、領収書文書からキーフィールドを抽出するのに優れています。
シーケンスラベリング Transformers
L
Theivaprakasham
71
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase