モデル選定

文書画像理解

# 文書画像理解

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、Neural Magicによって最適化・公開されています。

画像生成テキスト

Transformers 英語

Qwen2.5 VL 3B Instruct Quantized.w4a16

Qwen2.5-VL-3B-Instructの量子化バージョンで、重みをINT4、活性化をFP16に量子化しており、視覚-テキストタスクの効率的な推論に適しています。

テキスト生成画像

Transformers 英語

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、マルチモーダルタスクに適しています。

テキスト生成画像

Transformers 英語

Eagle2は高性能な視覚言語モデルシリーズで、データ戦略とトレーニング手法の最適化を通じてモデル性能を向上させることに焦点を当てています。Eagle2-9Bはこのシリーズの大型モデルで、性能と推論速度の間で良好なバランスを実現しています。

テキスト生成画像

Transformers その他

KnutJaegersberg

イーグル2は高性能な視覚言語モデルファミリーで、データ戦略とトレーニング手法の透明性に重点を置き、競争力のある視覚言語モデルのオープンソースコミュニティ開発を推進することを目的としています。

画像生成テキスト

Transformers その他

Paligemma2 10b Ft Docci 448

PaliGemma 2はGoogleが開発した多機能ビジュアル言語モデル(VLM)で、画像とテキストの処理能力を統合し、多言語と多タスクの処理をサポートしています。

画像生成テキスト

Paligemma Rich Captions

PaliGemma-3bモデルをDocCIデータセットでファインチューニングした画像キャプション生成モデル。200-350文字の詳細な説明文を生成可能で、幻覚現象を低減

画像生成テキスト

Transformers 英語

Paligemma 3b Ft Docvqa 896

PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、多言語の画像テキスト理解と生成をサポートします。

画像生成テキスト

Donut Base Medical Handwritten Prescriptions Information Extraction Final

Donutアーキテクチャに基づく医療手書き処方情報抽出モデル、医療処方画像から構造化情報を抽出するために使用

画像生成テキスト

naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途と機能は追加情報が必要

画像生成テキスト

Donut Base Sroie

naver-clova-ix/donut-baseをファインチューニングした文書理解モデルで、構造化文書情報抽出タスクに特化

naver-clova-ix/donut-baseをファインチューニングした文書理解モデル、画像フォルダデータセットに適応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase