モデル選定

構造化データ抽出

# 構造化データ抽出

Visionocr 3B 061125 GGUF

Qwen2.5-VL-3B-Instructをベースに微調整されたビジュアルOCRモデルで、ドキュメントレベルのOCR、長文脈の視覚言語理解、数学のLaTeX形式変換に特化しています。

画像生成テキスト

Transformers 英語

RT DETR L Wireless Table Cell Det

RT-DETR-L_wireless_table_cell_detは高精度の表セル検出モデルで、表認識タスク用に設計されており、表画像内の各セル領域を正確に位置決めしてマーキングすることができます。

文字認識複数言語対応

RT DETR L Wired Table Cell Det

RT - DETR - L_wired_table_cell_detは表認識タスクの重要なモジュールで、主に表画像内の各セル領域を位置決めしてマーキングする役割を担います。

文字認識複数言語対応

Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instructは、マルチモーダルタスクに適した、強化された数学力と問題解決能力を備えた強力なビジュアル言語モデルです。

画像生成テキスト英語

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VLはQwenファミリー最新のビジュアル言語モデルで、強力な視覚理解とマルチモーダル処理能力を備え、画像・動画分析と構造化出力をサポートします。

画像生成テキスト英語

Qwen2.5 VL 3B Instruct GGUF

Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とマルチモーダル処理能力を備えています。

画像生成テキスト英語

Docscopeocr 7B 050425 Exp

docscopeOCR-7B-050425-expは、Qwen/Qwen2.5-VL-7B-Instructをベースに微調整されたモデルで、ドキュメントレベルのOCR、長文脈のビジュアル言語理解、および数学のLaTeX形式の正確な画像からテキストへの変換に特化しています。

画像生成テキスト

Transformers 複数言語対応

Qwen2.5 VL 32B Instruct Exl2 4 25bpw

Qwen2.5-VL-32B-Instruct は Qwen ファミリーの最新の視覚言語モデルで、強力なマルチモーダル理解と生成能力を備え、画像、動画、テキストのインタラクションをサポートします。

テキスト生成画像

Transformers 英語

christopherthompson81

Qwen2.5 VL Instruct 3B Geo

Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、視覚理解とエージェント能力の強化に焦点を当てています。

テキスト生成画像

Transformers 英語

Qwen2.5 VL 72B Instruct AWQ Fix

Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とエージェント能力を備え、マルチフォーマットの視覚位置特定と構造化出力生成をサポートします。

画像生成テキスト

Transformers 英語

Qwen2.5 VL 72B Instruct AWQ

Qwen2.5-VLは通義千問チームが開発したマルチモーダル大規模言語モデルで、強力な視覚理解とインテリジェントエージェント能力を備え、画像、動画、テキストなど様々な入力形式をサポートします。

テキスト生成画像

Transformers 英語

Qwen2.5 VL 72B Instruct Pointer AWQ

Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強化された視覚理解、エージェント能力、構造化出力生成機能を備えています。

画像生成テキスト

Transformers 英語

Qwen2.5 VL 7B Instruct AWQ

Qwen2.5-VLは通義千問が開発したマルチモーダル視覚言語モデルで、強力な画像理解とテキスト生成能力を備えています。

画像生成テキスト

Transformers 英語

Qwen2.5 VL 3B Instruct 4bit

Qwen2.5-VLはQwenファミリーの最新ビジョン・ランゲージモデルで、強化された視覚理解、エージェント機能、長尺動画処理能力を備えています。

テキスト生成画像

Transformers 英語

Gemma 2 2B TR Knowledge Graph

Gemma-2-2B-TR-Knowledge-Graphはgemma-2-2b-itをベースに微調整されたモデルで、文書内容から構造化知識グラフを生成することに特化しています。

知識グラフ

Safetensors その他

LayoutLMアーキテクチャに基づく金融表形式質問応答モデルで、金融表からの構造化質問の抽出と回答に特化しています。

質問応答システム

Transformers 英語

Output LayoutLMv3 V7

microsoft/layoutlmv3-baseをファインチューニングしたドキュメント理解モデルで、ドキュメントレイアウト分析タスクに優れています

Table Transformer Detection Custom Ale

DETRアーキテクチャに基づく表検出モデルで、ドキュメントから表領域を識別するために特別に設計

このモデルはmicrosoft/layoutlmv2-base-uncasedをgeneratorデータセットでファインチューニングしたバージョンで、ドキュメント理解とレイアウト分析タスクに適しています。

大規模言語モデル

Donut Receipt V2

naver-clova-ix/donut-baseをファインチューニングしたモデルで、レシート認識やドキュメント理解タスクに使用可能

大規模言語モデル

CORD-v2は、画像からテキストを抽出・認識するタスク向けのモデルで、主に画像からテキストコンテンツを抽出するために使用されます。

naver-clova-ix/donut-base-finetuned-cord-v2を微調整した文書画像理解モデル

画像生成テキスト

Donut Base Finetuned Cord V2

DonutはSwin Transformerベースの視覚的文書理解モデルで、CORDデータセットに特化してファインチューニングされており、画像から構造化されたテキスト情報を抽出できます。

画像生成テキスト

Table Detection

DETRアーキテクチャに基づくテーブル検出モデルで、非構造化文書からテーブルを識別・抽出するために特別に設計

Donut Base Sroie

naver-clova-ix/donut-baseを画像フォルダデータセットで微調整したモデル、具体的な用途は明記されていません

naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途と機能は追加情報が必要

画像生成テキスト

Donut Base Receipt V3

naver-clova-ix/donut-baseをファインチューニングしたレシート認識モデル

大規模言語モデル

philschmid/donut-base-sroieを微調整したモデルで、画像処理タスクに適しています

Donut Base Finetuned Latvian Receipts V2

Donutアーキテクチャに基づくモデルで、ラトビア領収書データに特化して微調整されています

Donut Base Finetuned Latvian Receipts

このモデルはdonut-baseをラトビア領収書データセットで微調整したバージョンで、主に領収書画像処理タスクに使用されます

Yolov8n Table Extraction

YOLOv8ベースの表検出モデルで、文書内の表領域を識別可能。枠線あり/なし両方の表タイプに対応。

Donut Base Sroie

このモデルはnaver-clova-ix/donut-baseを画像フォルダデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています。

Donut Base Sroie

philschmid/donut-base-sroieをファインチューニングしたドキュメント理解モデル

Donut Base Medical Handwritten Blocks Data Extraction

Donutアーキテクチャに基づくモデルで、医療手書き文書から構造化データを抽出するために特別に設計されています

DETR Table Detection

Table TransformerはDETRアーキテクチャに基づく表検出モデルで、文書画像から表構造を検出・認識するために特別に設計されています。

Transformers 英語

Donut Base Sroie

naver-clova-ix/donut-baseをファインチューニングしたドキュメント理解モデル、画像テキスト抽出タスクに適しています

Layoutlmv3 Finetuned Invoice

LayoutLMv3-baseをSROIEデータセットでファインチューニングした請求書情報抽出モデルで、トークン分類タスクで優れた性能を発揮

Layoutlmv3 Finetuned Cord

LayoutLMv3をCORDデータセットでファインチューニングしたドキュメント理解モデルで、ドキュメントトークン分類タスクに優れています

Layoutlmv2 Finetuned Sroie Mod

microsoft/layoutlmv2-base-uncasedをファインチューニングしたドキュメント理解モデル、構造化文書情報抽出タスクに適応

大規模言語モデル

Theivaprakasham

Layoutlmv2 Finetuned Sroie

LayoutLMv2アーキテクチャに基づき、SROIEデータセットで微調整された文書情報抽出モデルで、領収書文書からキーフィールドを抽出するのに優れています。

シーケンスラベリング

Theivaprakasham

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase