# 高精度認識

Korean PP OCRv3 Mobile Rec
Apache-2.0
超軽量級の韓国語テキスト行認識モデルで、韓国語と数字文字の認識をサポートし、平均正解率は60.21%です。
文字認識 複数言語対応
K
PaddlePaddle
277
0
Latin PP OCRv3 Mobile Rec
Apache-2.0
PaddleOCRチームが開発した超軽量級のラテン語テキスト行認識モデルで、ラテン語と数字文字の認識をサポートします。
文字認識 複数言語対応
L
PaddlePaddle
898
0
Arabic PP OCRv3 Mobile Rec
Apache-2.0
PaddleOCRチームが開発した超軽量級のアラビア文字認識モデルで、アラビア文字と数字文字の認識をサポートします。
文字認識 複数言語対応
A
PaddlePaddle
287
0
Hicode R1 Distill Gemma 12B Q8.GGUF
Apache-2.0
Apache-2.0ライセンスに基づく画像テキスト変換モデルで、画像からテキスト情報を抽出し編集可能なテキスト形式に変換できます。
画像生成テキスト
H
tonyli8623
24
1
Medai Resnet50 Brain
MIT
ResNet-50は深層残差ネットワークで、マイクロソフトリサーチによって開発され、画像分類タスクに広く使用されています。
画像分類
M
aryan-anand
31
1
Nicpras Finetuned Yolo
これはYOLOv3アーキテクチャをベースにファインチューニングされた物体検出モデルで、特定シナリオ向けに最適化されています
物体検出 Transformers
N
LykaAustria
24
0
Yolo Roofs
MIT
YOLOv8はUltralyticsが開発した効率的な物体検出モデルで、YOLO(You Only Look Once)アーキテクチャに基づいており、リアルタイム物体検出タスクに適しています。
物体検出 Transformers 英語
Y
Vara971
15
0
Tiny Random Internvl2
画像内のテキスト情報を抽出し、編集可能なテキスト内容に変換することに特化しています。
文字認識 Safetensors
T
katuni4ka
73.27k
0
Videomae Large Finetuned Deepfake Subset
MCG-NJU/videomae-largeモデルをディープフェイク検出コンペティションのデータセットでファインチューニングしたバージョンで、動画のディープフェイク検出に使用されます。
動画処理 Transformers
V
shylhy
519
0
Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53
Apache-2.0
Wav2Vec2 Large XLSR-53モデルをファインチューニングした音声感情認識システムで、7つの一般的な感情を認識可能
音声分類 Transformers
S
firdhokk
66
0
Yolov10s
YOLOv10はリアルタイム物体検出モデルで、非極大抑制(NMS)などの後処理ステップを排除することで、効率的で追加コストのない物体検出を実現しています。
物体検出
Y
kadirnar
15
0
Detr Face Detection
Openrail
creativeml-openrail-mライセンスに基づく顔検出モデルで、英語をサポートし、主に物体検出タスクに使用されます。
物体検出 Transformers 英語
D
diffusionai
108
1
Yolov10x
YOLOv10はリアルタイムのエンドツーエンド物体検出モデルで、効率的な推論速度と高い検出精度を備えています。
物体検出 Transformers
Y
onnx-community
23
6
Yolov10n
YOLOv10はリアルタイムのエンドツーエンド物体検出モデルで、効率的なレイテンシーと精度、サイズと精度のトレードオフを備えています。
物体検出 Transformers
Y
onnx-community
21
6
Yolov10s
YOLOv10は清華大学MIG研究所が開発した高効率なリアルタイム物体検出モデルで、エンドツーエンド検出機能を提供します。
物体検出 Transformers
Y
onnx-community
13
7
Yolov10b
YOLOv10はリアルタイムエンドツーエンド物体検出モデルで、効率的な検出性能と精度のバランスを提供します。
物体検出 Transformers
Y
onnx-community
14
1
Trocr Base Finetune Numbers
TrOCRは、Transformerベースの光学文字認識モデルで、画像からテキストコンテンツを抽出するために使用されます。
画像生成テキスト Transformers 英語
T
ANANDHU-SCT
23
0
Trocr Base Plate Number
Apache-2.0
画像からナンバープレート番号を抽出できる車両ナンバープレート認識用のビジュアルモデルサンプルです。
文字認識 Transformers
T
ghanahmada
100
1
MAGE
Apache-2.0
MAGEは開放環境で機械生成されたテキストを検出するためのモデルで、AIによって生成されたテキストコンテンツを識別することを目的としています。
大規模言語モデル Transformers
M
yaful
742
1
Xlm Roberta Base Language Detection ONNX
XLM-RoBERTaを基にした多言語検出モデルで、テキストの言語カテゴリを識別できます。
テキスト分類 Transformers
X
Oblix
16
1
Donut Cn Invoice
中国語の請求書認識に特化したAIモデルで、請求書のキー情報を正確に抽出できます。
大規模言語モデル Transformers 中国語
D
ewfian
32
0
SMS Spam Detection BertForSequenceClassification
BERTを使用してファインチューニングされたSMS分類モデルで、スパムと非スパムを区別します。
テキスト分類 Transformers 英語
S
andresar1205
135
2
Convnextv2 Large DogBreed
Apache-2.0
このモデルはfacebook/convnextv2-large-22k-224を犬種分類データセットでファインチューニングしたバージョンで、評価セットで91.39%の精度を達成しました。
画像分類 Transformers
C
Pavarissy
184
6
Trocr Base Fa V2
これはTransformerベースのOCRモデルで、ペルシャ語のテキスト画像認識に特化しています。
文字認識 その他
T
hezarai
64
3
Fashion Images Gender Age Vit Large Patch16 224 In21k V3
Apache-2.0
このモデルはGoogleのViT-Largeアーキテクチャを基に、ファッション画像の性別年齢分類データセットでファインチューニングされたVision Transformerモデルで、評価セットで99.6%の精度を達成しました。
画像分類 Transformers
F
touchtech
286
5
Image2ingredients
Openrail
画像の内容をテキスト説明に変換できるモデルで、様々な視覚理解タスクに適用可能です。
画像生成テキスト Transformers
I
SumanthKarnati
22
0
Plant Vit Model 1
Apache-2.0
ViTアーキテクチャに基づく植物画像分類モデルで、未知のデータセットで微調整後、99.95%の検証精度を達成
画像分類 Transformers
P
Carina124
89
1
Detr Resnet 101
Transformerアーキテクチャに基づくエンドツーエンドの物体検出モデル、ResNet-101特徴抽出器を組み合わせ
物体検出 Transformers
D
Xenova
216
2
Leafcondition
植物の葉の状態を分類するための視覚モデルで、葉の健康状態を正確に識別・分析できます。
画像分類 Transformers
L
OttoYu
16
0
My Awesome Food Model
Apache-2.0
GoogleのViTモデルをfood101データセットでファインチューニングした食品分類モデル
画像分類 Transformers
M
jinkasreedhar
16
0
My Food Model
Apache-2.0
Google Vision Transformer (ViT)アーキテクチャに基づく食品画像分類モデルで、Food101データセットでファインチューニングされ、精度は90.9%を達成
画像分類 Transformers
M
iammartian0
18
0
Microsoft Resnet 50 Cartoon Face Recognition
Apache-2.0
microsoft/resnet-50をファインチューニングしたアニメ顔認識モデルで、画像分類タスクで良好な性能を発揮します。
人の顔に関係がある Transformers
M
jayanta
63
2
My Awesome Food Model
Apache-2.0
ViTアーキテクチャに基づく食品画像分類モデル、Food101データセットでファインチューニングされ、精度は89.7%
画像分類 Transformers
M
asd0936
38
0
Vit Base Highways 2
Apache-2.0
google/vit-base-patch16-224-in21kをファインチューニングしたビジョントランスフォーマーモデル、未知のデータセットで70%の精度を達成
画像分類 Transformers
V
ogimgio
14
0
Autotrain Dogs And Cats 1527055142
AutoTrainでトレーニングされた二項分類モデルで、猫と犬の画像を正確に区別できます
画像分類 Transformers
A
omarques
34
2
Wav2vec2 Base 960h Finetuned Deepfake
Apache-2.0
facebook/wav2vec2-base-960hをasvspoof2019データセットでファインチューニングした音声ディープフェイク検出モデル
音声分類 Transformers
W
HyperMoon
49
4
Swin Tiny Patch4 Window7 224 Finetuned Agrivision
Apache-2.0
Swin Transformer Tinyアーキテクチャに基づく農業視覚画像分類モデル、imagefolderデータセットで微調整され、精度は92.03%を達成
画像分類 Transformers
S
valadhi
13
0
Trocr Base Printed
microsoft/trocr-base-printedをベースにした派生モデルで、印刷テキストのOCR認識タスクに特化しています。
文字認識
T
philschmid
14
2
Exper6 Mesum5
Apache-2.0
google/vit-base-patch16-224-in21kをベースにherbier_mesuem5データセットでファインチューニングした画像分類モデル
画像分類 Transformers
E
sudo-s
28
0
Swin Finetuned Food101
Apache-2.0
Swin Transformerアーキテクチャを基にFood101データセットでファインチューニングされた画像分類モデルで、精度は92.14%
画像分類 Transformers
S
skylord
258
8
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase