image-text-captcha-v2オープンソースモデル - 無料でデプロイし、印刷体の検証コードを正確に識別

ホーム

Image Text Captcha V2

dragonstarによって開発

microsoft/trocr-base-printedをファインチューニングした印刷テキスト認識モデルで、主にCAPTCHA認識タスクに使用されます

文字認識

Transformers

#印刷OCR #CAPTCHA認識 #低CER

ダウンロード数 66

リリース時間 : 6/2/2023

モデル概要

このモデルはTrOCRベースモデルのファインチューニング版で、画像から印刷テキストを認識することに特化しており、特にCAPTCHA認識シナリオに適しています

モデル特徴

高精度CAPTCHA認識

CAPTCHAテキスト認識タスクで5.88%の低文字誤り率を達成

Transformerアーキテクチャ採用

先進的なTransformerアーキテクチャを採用し、優れたシーケンスモデリング能力を有する

ファインチューニング最適化

ベースモデルに対して特定タスク向けにファインチューニングし、性能を向上

モデル能力

画像内の印刷テキスト認識

CAPTCHA内容抽出

シーンテキスト認識

使用事例

セキュリティ認証

CAPTCHA自動認識

ウェブサイトのCAPTCHA内テキスト内容を自動認識

文字誤り率5.88%

文書デジタル化

印刷文書スキャン認識

印刷文書画像を編集可能なテキストに変換

訓練損失	エポック	ステップ	検証損失	文字誤り率(Cer)
13.43	1.0	373	0.6973	0.1290
0.6695	2.0	746	0.5942	0.1082
0.2885	3.0	1119	0.5038	0.0930
0.2885	4.0	1492	0.4981	0.0636
0.0946	5.0	1865	0.5030	0.0588

属性	詳細
モデルタイプ	このモデルは、microsoft/trocr-base-printed をベースにファインチューニングされたものです。
訓練データ	不明なデータセット

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Image Text Captcha V2

モデル概要

モデル特徴

モデル能力

使用事例

🚀 image-text-captcha-v2

🚀 クイックスタート

📚 ドキュメント

モデルの説明

想定される用途と制限

訓練と評価データ

訓練手順

訓練ハイパーパラメータ

訓練結果

フレームワークバージョン

📄 情報テーブル