# 画像からテキストへ

Florence Base Mixed Line Bbox Ocr
MIT
Microsoft Florence-2ベースモデルをファインチューニングした画像からテキストへの変換モデルで、スウェーデン語と英語をサポートし、歴史的手書きテキスト認識と光学文字認識に特化しています。
画像生成テキスト Safetensors
F
nazounoryuu
112
0
Vit Gpt2 Image Captioning
Apache-2.0
これはViTとGPT2アーキテクチャに基づく画像説明生成モデルで、入力された画像に対して自然言語の説明を生成できます。
画像生成テキスト
V
aryan083
31
0
Sarashina2 Vision 8b
MIT
Sarashina2-Vision-8BはSB Intuitionsによってトレーニングされた日本の大規模視覚言語モデルで、Sarashina2-7BとQwen2-VL-7Bの画像エンコーダーを基にしており、複数のベンチマークテストで優れたパフォーマンスを発揮しています。
画像生成テキスト Transformers 複数言語対応
S
sbintuitions
1,233
4
Bpe Vocab N OCR
Apache-2.0
Bpe-vocab-n-OCR はOCRベースの高度なテキスト抽出ツールで、構造化された分かち書き出力を生成するために最適化されています。
画像生成テキスト Transformers 複数言語対応
B
prithivMLmods
76
4
Sdxl Aam Xl Anime Mix
その他
Stable Diffusion XLを基にしたアニメスタイル画像生成モデルで、画像からテキストへの変換をサポート
画像生成
S
zenless-lab
1,259
0
BLIP Radiology Model
transformersライブラリを基にした画像からテキストへのモデルで、画像の内容を記述的なテキストに変換することをサポートします。
画像生成テキスト Transformers
B
motheecreator
152
0
Trocr Nepali
TrOCRアーキテクチャに基づくデーヴァナーガリ光学文字認識モデルで、ネパール語/デーヴァナーガリ文字に特化してファインチューニングされています
文字認識 Transformers その他
T
syubraj
175
0
Trocr Math Handwritten
TrOCRはTransformerベースのOCRモデルで、手書き数学式の認識に特化しています
画像生成テキスト Transformers
T
fhswf
290
6
Horus OCR
Donut はTransformerベースの画像からテキストへのモデルで、画像からテキストコンテンツを抽出・生成できます。
画像生成テキスト Transformers
H
TeeA
21
0
Paligemma 3b Mix 448 Ft TableDetection
google/paligemma-3b-mix-448をファインチューニングしたマルチモーダル表検出モデルで、画像内の表領域を識別するために特化
画像生成テキスト Transformers
P
ucsahin
19
4
Trocr Base Finetune Numbers
TrOCRは、Transformerベースの光学文字認識モデルで、画像からテキストコンテンツを抽出するために使用されます。
画像生成テキスト Transformers 英語
T
ANANDHU-SCT
23
0
Infimm Hd
InfiMM-HDは高解像度マルチモーダルモデルで、画像とテキストを組み合わせたコンテンツを理解し生成できます。
画像生成テキスト Transformers 英語
I
Infi-MM
17
27
Trocr Sinhala
このモデルはマイクロソフトのTrOCR活字モデルのファインチューニング版で、シンハラ文字のOCR認識タスク専用に設計されています。
文字認識 Transformers その他
T
Ransaka
66
1
Ocrmnist
Apache-2.0
Hugging Face Transformersに基づく光学文字認識モデルで、MNISTスタイルの数字画像の識別に特化
文字認識 Transformers 英語
O
vanshp123
16
0
Trocr Base Printed Captcha Ocr
マイクロソフトのtrocr-base-printedモデルをファインチューニングしたCAPTCHA認識モデルで、印刷体テキストのOCRタスク専用に設計されています
文字認識 Transformers
T
chanelcolgate
33
1
Image Caption Using ViT GPT2
Apache-2.0
これはVision Transformer(ViT)とGPT2アーキテクチャに基づく画像説明生成モデルで、入力画像に対して自然言語の説明を生成できます。
画像生成テキスト Transformers
I
Ayansk11
15
1
Trocr Base Fa V2
これはTransformerベースのOCRモデルで、ペルシャ語のテキスト画像認識に特化しています。
文字認識 その他
T
hezarai
64
3
Manga Ocr Base
Apache-2.0
日本漫画の日本語テキストに特化した光学文字認識モデル
文字認識 Transformers 日本語
M
TareHimself
96
1
Vit Gpt2 Verifycode Caption
Apache-2.0
60000枚の画像トレーニングセットでファインチューニングされたVit-GPT2アーキテクチャのキャプチャ認識モデルで、画像内のキャプチャテキストを正確に認識できます。
画像生成テキスト Transformers
V
AIris-Channel
28
1
Trocr Small Korean
Apache-2.0
TrOCRは視覚エンコーダ-デコーダアーキテクチャに基づく韓国語画像からテキストへの変換モデルで、DeiTを画像エンコーダ、RoBERTaをテキストデコーダとして使用しています。
画像生成テキスト 韓国語
T
team-lucid
342
17
Donut Base Sroie
MIT
naver-clova-ix/donut-baseを画像フォルダデータセットで微調整したモデル、具体的な用途は明記されていません
文字認識 Transformers
D
iamkhadke
13
0
Donut Base Finetuned SOGC Archive Trademarks 1883 2001
歴史的な商標文書を識別および解析する多言語画像からテキストへの変換モデルで、ドイツ語、イタリア語、フランス語をサポートしています。
画像生成テキスト Transformers 複数言語対応
D
Travad98
24
0
Hdd Words Ocr
ヘブライ語の画像からテキストへのOCRモデルで、画像内のヘブライ語文字を認識できます。
文字認識 Transformers その他
H
sivan22
25
0
Mangaocr Hoogberta V2
TrOCRアーキテクチャに基づく日本語漫画テキスト認識モデルで、漫画画像からテキスト内容を抽出するために特別に設計されています。
画像生成テキスト Transformers
M
dsupa
39
0
Trocr Base Handwritten OCR Handwriting Recognition V2
マイクロソフトのtrocr-base-handwrittenを微調整した手書きOCRモデルで、評価データセットにおける文字誤り率(CER)は0.0360
文字認識 Transformers 英語
T
DunnBC22
269
16
Trocr Processor
TrOCRはTransformerベースの光学文字認識モデルで、手書きテキスト認識用に設計されており、IAM手書きデータベースでファインチューニングされています。
画像生成テキスト Transformers
T
anaghasavit
18
3
Sky Scribe
マイクロソフトGIT-baseをファインチューニングした衛星画像説明生成モデルで、NASA地球観測所の画像に短い説明を生成します
画像生成テキスト Transformers その他
S
nkasmanoff
16
0
Pix2struct Docvqa Base
Apache-2.0
Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアで訓練され、画像キャプション生成や視覚QAなど複数のタスクをサポートします。
画像生成テキスト Transformers 複数言語対応
P
google
8,601
37
Pix2struct Ai2d Base
Apache-2.0
Pix2Structは視覚言語理解モデルで、科学図表の視覚的質問応答(VQA)タスクに特化してファインチューニングされています
テキスト生成画像 Transformers 複数言語対応
P
google
1,575
42
Trocr Base Printed Captcha Ocr
microsoft/trocr-base-printedを基に微調整したキャプチャOCRモデルで、画像キャプチャからテキストを抽出します。
文字認識 Transformers 英語
T
DunnBC22
272
8
Movie Picture Captioning
Apache-2.0
このモデルは映画の説明文体で任意の写真のキャプションを生成でき、トレーニングデータは映画ポスターとあらすじから得られ、主に娯楽目的で使用されます。
画像生成テキスト Transformers その他
M
dumperize
35
4
Git Large Vatex
MIT
GITはCLIP画像トークンとテキストトークンの条件付けに基づくトランスフォーマーデコーダーで、画像やビデオの記述生成、視覚的質問応答などのタスクに使用されます。
画像生成テキスト Transformers 複数言語対応
G
microsoft
267
1
Donut Base Sroie
MIT
このモデルはnaver-clova-ix/donut-baseを画像フォルダデータセットでファインチューニングしたバージョンで、ドキュメント理解タスクに適しています。
文字認識 Transformers
D
unstructuredio
31
1
Ko Trocr Base Nsmc News Chatbot
MIT
これは韓国語テキスト認識のためのコンセプト検証モデルで、TrOCRアーキテクチャに基づいて訓練され、画像から韓国語テキストを認識できます。
画像生成テキスト Transformers 韓国語
K
daekeun-ml
44
10
Dof Invoice 1
MIT
naver-clova-ix/donut-baseをファインチューニングした請求書処理モデル
画像生成テキスト Transformers
D
Sebabrata
13
0
Donut Base Sroie
MIT
philschmid/donut-base-sroieをファインチューニングしたドキュメント理解モデル
文字認識 Transformers
D
Prem11100
13
0
Veld Base
Apache-2.0
韓国語と英語をサポートする事前学習済み視覚エンコーダテキストデコーダモデル
画像生成テキスト Transformers 複数言語対応
V
KETI-AIR
40
0
Donut Base Medical Handwritten Prescriptions Information Extraction
MIT
Donutモデルをファインチューニングした手書き医療処方箋テキスト抽出モデルで、医療処方箋画像からテキスト情報を抽出するために特別に設計されています。
画像生成テキスト Transformers
D
mjawadazad2321
71
1
Trocr Base Printed
microsoft/trocr-base-printedをベースにした派生モデルで、印刷テキストのOCR認識タスクに特化しています。
文字認識
T
philschmid
14
2
Doctr Torch Crnn Mobilenet V3 Large French
TensorFlow 2とPyTorchに基づく光学文字認識(OCR)モデルで、多言語テキストの検出と認識をサポート
文字認識 Transformers 複数言語対応
D
Felix92
33
3
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase