モデル選定

文書画像処理

# 文書画像処理

PP OCRv4 Server Rec

PP-OCRv4_server_recはPaddleOCRチームが開発したPP-OCRv4_recシリーズのテキスト行認識モデルで、一般的な中国語と英語のシーンでのテキスト行認識をサポートし、主に中国語に重点を置いています。

文字認識複数言語対応

SLANet_plusは表構造認識に使用されるモデルで、編集できない表画像を編集可能な表形式（HTMLなど）に変換でき、表認識システムで重要な役割を果たし、表認識の精度と効率を効果的に向上させることができます。

文字認識複数言語対応

Table Transformer Page Segmentation Floorplan

これはTransformerアーキテクチャに基づく画像分割モデルで、ページレイアウトや平面図の分割タスクに特化しています。

画像セグメンテーション

モンキーモデルは大規模マルチモーダルモデルで、画像解像度の向上とテキストラベル手法の改良により、様々な視覚タスクで優れた性能を発揮します。

画像生成テキスト

モンキーモデルは効率的な大規模マルチモーダルモデルで、画像解像度の向上とテキストラベル方法の改善により、複数の視覚タスクで優れた性能を発揮します。

画像生成テキスト

naver-clova-ix/donut-baseを微調整したモデル、具体的な用途は明記されていません

画像生成テキスト

DonutはOCRを必要としない文書理解Transformerモデルで、視覚エンコーダー(Swin Transformer)とテキストデコーダー(BART)で構成されています。

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase