モデル選定

高精度認識

# 高精度認識

Korean PP OCRv3 Mobile Rec

超軽量級の韓国語テキスト行認識モデルで、韓国語と数字文字の認識をサポートし、平均正解率は60.21%です。

文字認識複数言語対応

Latin PP OCRv3 Mobile Rec

PaddleOCRチームが開発した超軽量級のラテン語テキスト行認識モデルで、ラテン語と数字文字の認識をサポートします。

文字認識複数言語対応

Arabic PP OCRv3 Mobile Rec

PaddleOCRチームが開発した超軽量級のアラビア文字認識モデルで、アラビア文字と数字文字の認識をサポートします。

文字認識複数言語対応

Hicode R1 Distill Gemma 12B Q8.GGUF

Apache-2.0ライセンスに基づく画像テキスト変換モデルで、画像からテキスト情報を抽出し編集可能なテキスト形式に変換できます。

画像生成テキスト

Medai Resnet50 Brain

ResNet-50は深層残差ネットワークで、マイクロソフトリサーチによって開発され、画像分類タスクに広く使用されています。

Nicpras Finetuned Yolo

これはYOLOv3アーキテクチャをベースにファインチューニングされた物体検出モデルで、特定シナリオ向けに最適化されています

YOLOv8はUltralyticsが開発した効率的な物体検出モデルで、YOLO（You Only Look Once）アーキテクチャに基づいており、リアルタイム物体検出タスクに適しています。

Transformers 英語

Tiny Random Internvl2

画像内のテキスト情報を抽出し、編集可能なテキスト内容に変換することに特化しています。

Videomae Large Finetuned Deepfake Subset

MCG-NJU/videomae-largeモデルをディープフェイク検出コンペティションのデータセットでファインチューニングしたバージョンで、動画のディープフェイク検出に使用されます。

Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53

Wav2Vec2 Large XLSR-53モデルをファインチューニングした音声感情認識システムで、7つの一般的な感情を認識可能

YOLOv10はリアルタイム物体検出モデルで、非極大抑制（NMS）などの後処理ステップを排除することで、効率的で追加コストのない物体検出を実現しています。

Detr Face Detection

creativeml-openrail-mライセンスに基づく顔検出モデルで、英語をサポートし、主に物体検出タスクに使用されます。

Transformers 英語

YOLOv10はリアルタイムのエンドツーエンド物体検出モデルで、効率的な推論速度と高い検出精度を備えています。

YOLOv10はリアルタイムのエンドツーエンド物体検出モデルで、効率的なレイテンシーと精度、サイズと精度のトレードオフを備えています。

YOLOv10は清華大学MIG研究所が開発した高効率なリアルタイム物体検出モデルで、エンドツーエンド検出機能を提供します。

YOLOv10はリアルタイムエンドツーエンド物体検出モデルで、効率的な検出性能と精度のバランスを提供します。

Trocr Base Finetune Numbers

TrOCRは、Transformerベースの光学文字認識モデルで、画像からテキストコンテンツを抽出するために使用されます。

画像生成テキスト

Transformers 英語

Trocr Base Plate Number

画像からナンバープレート番号を抽出できる車両ナンバープレート認識用のビジュアルモデルサンプルです。

MAGEは開放環境で機械生成されたテキストを検出するためのモデルで、AIによって生成されたテキストコンテンツを識別することを目的としています。

大規模言語モデル

Xlm Roberta Base Language Detection ONNX

XLM-RoBERTaを基にした多言語検出モデルで、テキストの言語カテゴリを識別できます。

テキスト分類

Donut Cn Invoice

中国語の請求書認識に特化したAIモデルで、請求書のキー情報を正確に抽出できます。

大規模言語モデル

Transformers 中国語

SMS Spam Detection BertForSequenceClassification

BERTを使用してファインチューニングされたSMS分類モデルで、スパムと非スパムを区別します。

テキスト分類

Transformers 英語

Convnextv2 Large DogBreed

このモデルはfacebook/convnextv2-large-22k-224を犬種分類データセットでファインチューニングしたバージョンで、評価セットで91.39%の精度を達成しました。

Trocr Base Fa V2

これはTransformerベースのOCRモデルで、ペルシャ語のテキスト画像認識に特化しています。

文字認識その他

Fashion Images Gender Age Vit Large Patch16 224 In21k V3

このモデルはGoogleのViT-Largeアーキテクチャを基に、ファッション画像の性別年齢分類データセットでファインチューニングされたVision Transformerモデルで、評価セットで99.6%の精度を達成しました。

Image2ingredients

画像の内容をテキスト説明に変換できるモデルで、様々な視覚理解タスクに適用可能です。

画像生成テキスト

Plant Vit Model 1

ViTアーキテクチャに基づく植物画像分類モデルで、未知のデータセットで微調整後、99.95%の検証精度を達成

Detr Resnet 101

Transformerアーキテクチャに基づくエンドツーエンドの物体検出モデル、ResNet-101特徴抽出器を組み合わせ

植物の葉の状態を分類するための視覚モデルで、葉の健康状態を正確に識別・分析できます。

My Awesome Food Model

GoogleのViTモデルをfood101データセットでファインチューニングした食品分類モデル

Google Vision Transformer (ViT)アーキテクチャに基づく食品画像分類モデルで、Food101データセットでファインチューニングされ、精度は90.9%を達成

Microsoft Resnet 50 Cartoon Face Recognition

microsoft/resnet-50をファインチューニングしたアニメ顔認識モデルで、画像分類タスクで良好な性能を発揮します。

人の顔に関係がある

My Awesome Food Model

ViTアーキテクチャに基づく食品画像分類モデル、Food101データセットでファインチューニングされ、精度は89.7%

Vit Base Highways 2

google/vit-base-patch16-224-in21kをファインチューニングしたビジョントランスフォーマーモデル、未知のデータセットで70%の精度を達成

Autotrain Dogs And Cats 1527055142

AutoTrainでトレーニングされた二項分類モデルで、猫と犬の画像を正確に区別できます

Wav2vec2 Base 960h Finetuned Deepfake

facebook/wav2vec2-base-960hをasvspoof2019データセットでファインチューニングした音声ディープフェイク検出モデル

Swin Tiny Patch4 Window7 224 Finetuned Agrivision

Swin Transformer Tinyアーキテクチャに基づく農業視覚画像分類モデル、imagefolderデータセットで微調整され、精度は92.03%を達成

Trocr Base Printed

microsoft/trocr-base-printedをベースにした派生モデルで、印刷テキストのOCR認識タスクに特化しています。

google/vit-base-patch16-224-in21kをベースにherbier_mesuem5データセットでファインチューニングした画像分類モデル

Swin Finetuned Food101

Swin Transformerアーキテクチャを基にFood101データセットでファインチューニングされた画像分類モデルで、精度は92.14%

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase