# 低エラー率

Trocr Finetuned 20250422 125947
MIT
ポルトガル語テキストに最適化された光学文字認識(OCR)モデル、Microsoft TrOCRベースモデルをファインチューニング
文字認識 複数言語対応
T
mazafard
30
0
Qaari 0.1 Urdu OCR VL 2B Instruct
Qaari 0.1 ウルドゥー語は、ウルドゥー語テキストの光学文字認識(OCR)に特化して最適化されたモデルで、Qwen/Qwen2-VL-2Bをベースに微調整され、ウルドゥー語OCR能力が著しく向上しています。
文字認識
Q
oddadmix
257
1
Qari OCR 0.1 VL 2B Instruct
Apache-2.0
Qwen2 VLモデルをファインチューニングしたアラビア語OCRモデル、全ページアラビア語テキスト認識に最適化
文字認識 Transformers アラビア語
Q
NAMAA-Space
2,965
28
Fireredasr LLM L
Apache-2.0
FireRedASRは、標準中国語、中国の方言、英語をサポートするオープンソースの産業用自動音声認識(ASR)モデルシリーズで、公開されている標準中国語ASRベンチマークテストにおいて新たな最先端(SOTA)を達成し、優れた歌詞認識能力も備えています。
音声認識 複数言語対応
F
FireRedTeam
151
17
Vntl Llama3 8b V2 Imatrix Gguf
LLaMA3 Youkoのqlora微調整版で、日本語ビジュアルノベル英訳に最適化された8Bパラメータモデル
機械翻訳 複数言語対応
V
Casual-Autopsy
311
1
Vntl Llama3 8b V2 Gguf
LLaMA 3 Youkoのqlora微調整バージョンに基づき、日本語ビジュアルノベルの英訳タスクに特化
機械翻訳 複数言語対応
V
lmg-anon
123
5
Reverb Diarization V2
その他
Reverb話者分離V2はpyannote-audioベースの話者分離モデルで、ベンチマークpyannote3.0モデルと比較して複数のテストセットで優れた性能を発揮します。
話者の処理
R
Revai
4,073
45
Trocr Base Printed License Plates Ocr
microsoft/trocr-base-printedを基に微調整した印刷体ナンバープレートOCRモデルで、評価セットでの文字エラー率は0.037
文字認識 Transformers
T
artbreguez
163
1
Fine Tashkeel
MIT
バイトレベルの微調整モデルに基づくアラビア語の精密な発音記号システムで、事前訓練モデルの微調整によりアラビア語テキストの発音記号を自動補完します。
大規模言語モデル Transformers アラビア語
F
basharalrfooh
335
5
Wavlm Base 960h Asv19 Deepfake
マイクロソフトのWavLM-baseをファインチューニングしたディープフェイク音声検出モデルで、ASVspoof 2019データセットで優れた性能を発揮し、精度は99.79%に達します
音声分類 Transformers
W
abhishtagatya
16
0
Hubert Base 960h Asv19 Deepfake
Apache-2.0
HuBERTアーキテクチャに基づく音声分類モデルで、ディープフェイク音声や音声スプーフィングの検出に特化
音声分類 Transformers
H
abhishtagatya
15
2
Belle Whisper Large V3 Zh
Apache-2.0
whisper-large-v3を微調整して最適化した中国語音声認識モデルで、複数の中国語音声ベンチマークテストで性能が大幅に向上
音声認識 Transformers
B
BELLE-2
1,666
112
Trocr Large Spanish
MIT
Transformerアーキテクチャに基づく印刷体スペイン語OCRモデルで、印刷フォントに最適化されており、手書き文字認識はサポートしていません
画像生成テキスト Transformers 複数言語対応
T
qantev
298
11
Trocr Base Printed License Plates Ocr
microsoft/trocr-base-printedをファインチューニングしたOCRモデルで、印刷体のナンバープレート認識に特化しています。
文字認識 Transformers
T
mariovigliar
202
1
Sinhala Ocr Model V3
このモデルはRansaka/sinhala-ocr-modelをファインチューニングしたシンハラ語OCRモデルで、主にシンハラ語テキストの認識に使用されます。
文字認識 Transformers
S
Ransaka
213
2
Wespeaker Voxceleb Resnet293 LM
ResNet293アーキテクチャに基づく話者埋め込みモデルで、大マージンファインチューニング最適化を経ており、話者認識、類似度計算、音声分割などのタスクをサポート
話者の処理 英語
W
Wespeaker
108
3
Whisper Large V3 German
Apache-2.0
Whisper Large v3を基にしたドイツ語音声認識のファインチューニングモデルで、ドイツ語音声処理と認識に最適化されています
音声認識 Transformers ドイツ語
W
primeline
8,745
70
Trocr Base Printed Captcha Ocr
マイクロソフトのtrocr-base-printedモデルをファインチューニングしたCAPTCHA認識モデルで、印刷体テキストのOCRタスク専用に設計されています
文字認識 Transformers
T
chanelcolgate
33
1
Whisper Base Japanese
Apache-2.0
このモデルは、Common Voice、JVS、JSUTデータセットを使用してopenai/whisper-baseを日本語向けにファインチューニングしたもので、日本語音声認識タスクに適しています。
音声認識 Transformers 日本語
W
Ivydata
137
3
Arocr
ArOCRはアラビア語の光学文字認識(OCR)モデルで、アラビア語テキストを含む画像を編集可能なテキスト形式に変換できます。
文字認識 Transformers アラビア語
A
gagan3012
77
4
Trocr Handwritten Math
このモデルは手書き数学式の画像を対応するLaTeXシーケンスに変換でき、数式認識とデジタル処理に適しています。
文字認識 Transformers
T
Azu
46
5
Wav2vec2 Large Xlsr Japanese 0325 1200
Apache-2.0
これはfacebook/wav2vec2-large-xlsr-53モデルを基に、日本語音声認識タスク向けにファインチューニングした自動音声認識(ASR)モデルです。
音声認識 Transformers 日本語
W
qqpann
14
0
Wav2vec2 Xls R Adult Child Cls
Apache-2.0
XLS-Rアーキテクチャに基づく音声分類モデルで、成人と児童の音声を区別します。
音声分類 Transformers 英語
W
bookbot
20
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase