# 文書画像理解

Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、Neural Magicによって最適化・公開されています。
画像生成テキスト Transformers 英語
Q
parasail-ai
78
1
Qwen2.5 VL 3B Instruct Quantized.w4a16
Apache-2.0
Qwen2.5-VL-3B-Instructの量子化バージョンで、重みをINT4、活性化をFP16に量子化しており、視覚-テキストタスクの効率的な推論に適しています。
テキスト生成画像 Transformers 英語
Q
RedHatAI
167
1
Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、マルチモーダルタスクに適しています。
テキスト生成画像 Transformers 英語
Q
RedHatAI
1,837
3
Eagle2 9B
Eagle2は高性能な視覚言語モデルシリーズで、データ戦略とトレーニング手法の最適化を通じてモデル性能を向上させることに焦点を当てています。Eagle2-9Bはこのシリーズの大型モデルで、性能と推論速度の間で良好なバランスを実現しています。
テキスト生成画像 Transformers その他
E
KnutJaegersberg
15
4
Eagle2 1B
イーグル2は高性能な視覚言語モデルファミリーで、データ戦略とトレーニング手法の透明性に重点を置き、競争力のある視覚言語モデルのオープンソースコミュニティ開発を推進することを目的としています。
画像生成テキスト Transformers その他
E
nvidia
1,791
23
Paligemma2 10b Ft Docci 448
PaliGemma 2はGoogleが開発した多機能ビジュアル言語モデル(VLM)で、画像とテキストの処理能力を統合し、多言語と多タスクの処理をサポートしています。
画像生成テキスト Transformers
P
google
2,207
16
Paligemma Rich Captions
Apache-2.0
PaliGemma-3bモデルをDocCIデータセットでファインチューニングした画像キャプション生成モデル。200-350文字の詳細な説明文を生成可能で、幻覚現象を低減
画像生成テキスト Transformers 英語
P
gokaygokay
66
9
Paligemma 3b Ft Docvqa 896
PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、多言語の画像テキスト理解と生成をサポートします。
画像生成テキスト Transformers
P
google
519
9
Donut Base Medical Handwritten Prescriptions Information Extraction Final
MIT
Donutアーキテクチャに基づく医療手書き処方情報抽出モデル、医療処方画像から構造化情報を抽出するために使用
画像生成テキスト Transformers
D
Javeria98
47
0
Thesisdonut
MIT
naver-clova-ix/donut-baseをファインチューニングしたモデル、具体的な用途と機能は追加情報が必要
画像生成テキスト Transformers
T
Humayoun
13
0
Donut Base Sroie
MIT
naver-clova-ix/donut-baseをファインチューニングした文書理解モデルで、構造化文書情報抽出タスクに特化
文字認識 Transformers
D
enoreyes
15
0
Donut Base Bol
MIT
naver-clova-ix/donut-baseをファインチューニングした文書理解モデル、画像フォルダデータセットに適応
文字認識 Transformers
D
prakriti42
13
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase