PP OCRv4 Mobile Det
Apache-2.0
PP - OCRv4_mobile_detはPaddleOCRチームによって開発された、モバイルデバイス向けに最適化された効率的なテキスト検出モデルで、エッジデバイスへのデプロイに適しています。
文字認識 複数言語対応
P
PaddlePaddle
360
0
PP OCRv5 Mobile Rec
Apache-2.0
PP-OCRv5_mobile_recはPaddleOCRチームが開発した最新世代のテキスト行認識モデルで、簡体字中国語、繁体字中国語、英語、日本語の4つの言語の認識をサポートし、様々な複雑なテキストシーンに適用できます。
文字認識 複数言語対応
P
PaddlePaddle
499
0
PP OCRv5 Server Rec
Apache-2.0
PP - OCRv5_server_recはPaddleOCRチームが開発した最新世代のテキスト行認識モデルで、多言語と複雑なテキストシーンの認識をサポートしています。
文字認識 複数言語対応
P
PaddlePaddle
8,601
0
Florence Base Mixed Line Bbox Ocr
MIT
Microsoft Florence-2ベースモデルをファインチューニングした画像からテキストへの変換モデルで、スウェーデン語と英語をサポートし、歴史的手書きテキスト認識と光学文字認識に特化しています。
画像生成テキスト
Safetensors
F
nazounoryuu
112
0
Mistral Small 1
MIT
Mistral-Small-3.1-24B-Instruct-2503をベースに構築された画像テキストをテキストに変換するモデルで、多言語処理に対応しています。
画像生成テキスト
Safetensors 複数言語対応
M
CreitinGameplays
109
1
Internvl3 2B AWQ
その他
InternVL3-2BはOpenGVLabが開発した先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚などをサポートします。

I
OpenGVLab
677
1
Minicpm V 2 6
MiniCPM-V 2.6は強力なマルチモーダル大規模言語モデルで、スマートフォンなどのデバイスで高効率に動作し、単一画像、複数画像、動画の理解タスクをサポートします。
テキスト生成画像
Transformers その他

M
FriendliAI
102
0
Paligemma2 3b Mix 224 Jax
PaliGemma 2はGemma 2を基にしたアップグレード版の視覚言語モデルで、多言語の画像テキスト入力とテキスト出力をサポートし、視覚言語タスク専用に設計されています
テキスト生成画像
P
google
38
1
Minicpm O 2 6 Int4
MiniCPM-o 2.6のint4量子化バージョンで、GPUのVRAM使用量を大幅に削減し、マルチモーダル処理能力をサポートします。
テキスト生成オーディオ
Transformers その他

M
openbmb
4,249
42
Paligemma2 28b Mix 224
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を統合し、多言語画像テキストインタラクションタスクをサポートします。
画像生成テキスト
Transformers

P
google
2,050
4
Paligemma2 28b Mix 448
PaliGemma 2はGemma 2ベースの視覚言語モデルで、画像+テキスト入力をサポートし、テキスト応答を出力します。様々な視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
198
26
Paligemma2 10b Mix 224
PaliGemma 2はGemma 2をベースにした視覚言語モデルで、画像とテキストの入力をサポートし、テキスト出力を生成します。様々な視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
701
7
Paligemma2 3b Mix 448
PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力をサポートし、テキストを生成する出力を行い、さまざまな視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
20.55k
44
Trocr Nepali
TrOCRアーキテクチャに基づくデーヴァナーガリ光学文字認識モデルで、ネパール語/デーヴァナーガリ文字に特化してファインチューニングされています
文字認識
Transformers その他

T
syubraj
175
0
Thai Trocr
Apache-2.0
TrOCRベースの手書き文字モデルをファインチューニングしたタイ語と英語の光学文字認識モデルで、手書きテキスト行画像の処理に優れています
文字認識
Transformers 複数言語対応

T
openthaigpt
2,677
9
Urdu Ocr
このモデルはウルドゥー語OCRタスク専用に訓練されており、単一行のウルドゥー語テキスト画像の処理に最適で、主に活字テキストに焦点を当てています。
文字認識
Transformers その他

U
cxfajar197
114
1
Trocr Medieval Cursiva
MIT
これはTrOCRベースの中世草書体識別モデルで、ラテン語、フランス語、イタリア語、スペイン語、カタルーニャ語の中世手書きテキストを識別するために特別に設計されています。
文字認識
Transformers 複数言語対応

T
medieval-data
18
1
Trocr Base Ru
Apache-2.0
TrOCR-Ruは、microsoft/trocr-base-handwrittenをロシア語と英語の合成データセットでファインチューニングした光学文字認識モデルで、画像からテキストへの変換タスクに特化しています。
文字認識
Transformers 複数言語対応

T
sherstpasha99
30
0
Trocr Base Finetune Numbers
TrOCRは、Transformerベースの光学文字認識モデルで、画像からテキストコンテンツを抽出するために使用されます。
画像生成テキスト
Transformers 英語

T
ANANDHU-SCT
23
0
Trocr Base Ckb
Transformerアーキテクチャに基づくOCRシステムで、中央クルド語のテキスト認識に特化しており、合成データを使用してトレーニングされています。
文字認識
Transformers

T
razhan
19
0
Pix2struct Ocrvqa Base
Apache-2.0
Pix2StructはOCR-VQAタスクでファインチューニングされた視覚質問応答モデルで、画像内のテキスト内容を解析し質問に答えることができます
画像生成テキスト
Transformers 複数言語対応

P
google
38
1
Pix2struct Docvqa Base
Apache-2.0
Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアで訓練され、画像キャプション生成や視覚QAなど複数のタスクをサポートします。
画像生成テキスト
Transformers 複数言語対応

P
google
8,601
37
Pix2struct Chartqa Base
Apache-2.0
Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアデータによるマルチタスク学習を行い、特にチャートQAタスク向けにファインチューニングされています
テキスト生成画像
Transformers 複数言語対応

P
google
181
8
Donut Base Finetuned Latvian Receipts
MIT
このモデルはdonut-baseをラトビア領収書データセットで微調整したバージョンで、主に領収書画像処理タスクに使用されます
文字認識
Transformers

D
Inesence
31
0
Doctr Torch Crnn Mobilenet V3 Large French
TensorFlow 2とPyTorchに基づく光学文字認識(OCR)モデルで、多言語テキストの検出と認識をサポート
文字認識
Transformers 複数言語対応

D
Felix92
33
3
Doctr Tf Crnn Vgg16 Bn French
TensorFlow 2とPyTorchに基づく光学文字認識技術、多言語文書認識をサポート
文字認識
Transformers 複数言語対応

D
Felix92
16
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98