# 画像からテキストへの変換

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged GGUF
これはQari-OCR-0.3-SNAPSHOT-VL-2B-Instruct-mergedモデルに基づく静的量子化バージョンで、主に画像からテキストへの変換タスクに使用されます。
画像生成テキスト Transformers 英語
Q
mradermacher
188
0
Qwen Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instructの量子化バージョンで、llama.cppを使用して量子化されており、マルチモーダルタスクをサポートし、画像からテキストへの変換などのアプリケーションシーンに適しています。
テキスト生成画像 英語
Q
bartowski
2,056
2
Mixtex Finetune
MIT
MixTex base_ZhEn は中国語と英語をサポートする画像からテキストへの変換モデルで、MITライセンスの下で公開されています。
画像生成テキスト 複数言語対応
M
wzmmmm
27
0
Google.gemma 3 27b Pt GGUF
Gemma 3 27BはGoogleが開発した大規模事前学習言語モデルで、パラメータ規模は270億、様々な自然言語処理タスクに適しています。
大規模言語モデル
G
DevQuasar
477
1
Thai Handwriting Llm
Apache-2.0
Llama-3.2-11B-Vision-Instructを基にしたLoRA適応視覚言語モデルで、画像からタイ語の手書き文字を転写できます。
画像生成テキスト Safetensors その他
T
Aekanun
9
6
Florence 2 Large
MIT
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚および視覚言語タスクを処理します。
画像生成テキスト Transformers
F
Binaryy
24
0
Florence 2 Large
MIT
Florence-2はマイクロソフトが開発した先進的な視覚基盤モデルで、プロンプトベースのアプローチで幅広い視覚および視覚言語タスクを処理します。
画像生成テキスト Transformers
F
lodestone-horizon
14
0
Trocr German Handwritten
これはTransformerベースのOCRモデルで、ドイツ語の手書きテキスト認識に特化しています。
文字認識 Transformers ドイツ語
T
fhswf
841
7
Libra 11b Base
Apache-2.0
天秤座は大規模言語モデルを基盤に構築された分離視覚システムで、基本的なマルチモーダル理解能力を備えています。
画像生成テキスト Transformers
L
YifanXu
18
0
OCR TextInput Base
金融分野に特化した画像からテキストへの変換モデルで、英文テキスト認識をサポートし、主に金融文書の画像内容を処理します。
文字認識 Transformers 英語
O
rohit5895
31
0
Llava Phi 3 Mini Gguf
LLaVA-Phi-3-mini は Phi-3-mini-4k-instruct と CLIP-ViT-Large-patch14-336 をファインチューニングした LLaVA モデルで、画像からテキストへの変換タスクに特化しています。
画像生成テキスト
L
xtuner
1,676
133
Donut Finetune Rvl Cdip
Apache-2.0
Donutフレームワークに基づく文書分類モデルで、RVL-CDIPの小規模データセットでトレーニング済み
画像生成テキスト Transformers 英語
D
sitloboi2012
18
0
Git Base Next Refined
MIT
microsoft/git-baseを微調整した画像からテキストへの変換モデル
大規模言語モデル Transformers その他
G
swaroopajit
24
0
Blip Base Captioning Ft Hl Scenes
Apache-2.0
このモデルはBLIPアーキテクチャに基づく画像キャプション生成モデルで、特にシーンの高レベル記述に特化してファインチューニングされています。
画像生成テキスト Transformers 英語
B
michelecafagna26
13
0
Pix2struct Refexp Base
Apache-2.0
Pix2Structは、画像エンコーダー - テキストデコーダーモデルで、画像記述やビジュアル質問応答など、さまざまなビジュアル言語タスクに対して訓練されています。
画像生成テキスト Transformers 複数言語対応
P
gitlost-murali
20
0
Git 20
MIT
マイクロソフトGITフレームワークを基にしたマルチモーダルモデルで、学生の宿題画像からテキストを抽出し教師のフィードバックを生成することに特化
画像生成テキスト Transformers 複数言語対応
G
uf-aice-lab
18
1
Donut Pdf Ocr
画像フォルダデータセットで訓練されたOCRモデルで、PDF文書のテキスト認識に使用されます
文字認識 Transformers
D
shubh1608
67
5
Vit Gpt2 Image Captioning
Apache-2.0
これはVision Encoder-Decoderアーキテクチャに基づく画像キャプション生成モデルで、入力画像に対する自然言語の説明を生成できます。
画像生成テキスト Transformers
V
baseplate
55
2
Pix2struct Large
Apache-2.0
Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像-テキストペアで訓練され、様々な視覚言語タスクに適用可能
画像生成テキスト Transformers 複数言語対応
P
google
6,601
34
Pix2struct Screen2words Large
Apache-2.0
Pix2Structアーキテクチャに基づく大規模視覚言語モデル、UIインターフェースの機能説明生成に特化してファインチューニング
画像生成テキスト Transformers 複数言語対応
P
google
176
19
Pix2struct Base
Apache-2.0
Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像説明や視覚的質問応答を含む複数のタスクの画像-テキストペアで訓練されています。
画像生成テキスト Transformers 複数言語対応
P
google
6,390
71
Donut Base Sroie
MIT
naver-clova-ix/donut-baseをファインチューニングしたドキュメント理解モデル、画像テキスト抽出タスクに適しています
文字認識 Transformers
D
philschmid
185
3
Image Caption Generator
Flickr8kデータセットでトレーニングされた視覚言語モデルで、入力画像に対して自然言語の説明を生成できます
画像生成テキスト Transformers
I
bipin
177
15
Vit2distilgpt2
MIT
これは画像からテキストを生成するモデルで、画像を受け取り、記述的なテキストを出力することができます。
画像生成テキスト Transformers 英語
V
sachin
49
8
Trocr Large Handwritten
TrOCRはTransformerベースの光学文字認識モデルで、手書きテキスト認識に特化しており、IAMデータセットで微調整されています。
文字認識 Transformers
T
microsoft
59.17k
115
Vit Gpt2 Coco En
ViTとGPT2アーキテクチャに基づく画像からテキストへの変換モデルで、入力画像に対して合理的な英語の説明を生成できます。
画像生成テキスト
V
ydshieh
5,177
38
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase