# 低CER

Whisper Finetune Teochew
Whisper-mediumをファインチューニングした潮州語(潮汕語)正字認識モデルで、多方言アクセントの正字転写をサポート
音声認識 Safetensors Chinese
W
panlr
20
4
Thai Trocr
Apache-2.0
TrOCRベースの手書き文字モデルをファインチューニングしたタイ語と英語の光学文字認識モデルで、手書きテキスト行画像の処理に優れています
文字認識 Transformers Supports Multiple Languages
T
openthaigpt
2,677
9
Tablecell Htr
MIT
このモデルは、表セルのテキスト行画像から手書きテキストを認識するために使用され、特に1930年代のフィンランドの死亡記録や国勢調査記録の手書きテキスト認識に適しています。
文字認識
T
Kansallisarkisto
39
1
Phoneme Scorer V2 Wav2vec2
Apache-2.0
Wav2Vec2-Baseアーキテクチャに基づく自動音声認識モデルで、音素認識に特化しており、LJSpeech Phonemesデータセットでファインチューニングされています
音声認識 Transformers English
P
ct-vikramanantha
167
9
OCR TextInput Base
金融分野に特化した画像からテキストへの変換モデルで、英文テキスト認識をサポートし、主に金融文書の画像内容を処理します。
文字認識 Transformers English
O
rohit5895
31
0
Pretrained Trocr Small Vietnamese Nom
ベトナム語音声認識に特化したモデルで、高精度な音声からテキストへの変換機能をサポートします。
機械翻訳 Transformers Other
P
nxquang-al
19
2
Image Text Captcha V2
microsoft/trocr-base-printedをファインチューニングした印刷テキスト認識モデルで、主にCAPTCHA認識タスクに使用されます
文字認識 Transformers
I
dragonstar
66
3
Whisper Small Japanese
Apache-2.0
このモデルはopenai/whisper-smallをファインチューニングした日本語音声認識モデルで、日本語音声からテキストへの変換タスクをサポートします。
音声認識 Transformers Japanese
W
Ivydata
356
5
Trocr Base Printed Fr
MIT
Transformerベースのフランス語活字OCRモデル、TrOCRモデルのフランス語版の空白を埋める
画像生成テキスト Transformers French
T
agomberto
110
2
Wav2vec2 Ljspeech Gruut
Apache-2.0
Wav2Vec2アーキテクチャに基づく音素認識モデルで、LJSpeech Phonemesデータセットでファインチューニングされ、音声を音素シーケンスに変換するために使用されます
音声認識 Transformers English
W
bookbot
2,484
17
Whisper Small Cantonese
Apache-2.0
OpenAI Whisper-smallをファインチューニングした広東語音声認識モデル、Common Voice 16.0テストセットでCER7.93を達成
音声認識 Transformers Supports Multiple Languages
W
alvanlii
2,413
85
Stt Zh Conformer Transducer Large
これは標準中国語音声を転写するための大規模なConformer-Transducerモデルで、約1.2億のパラメータを持ち、AISHELL-2データセットでトレーニングされました。
音声認識 Chinese
S
nvidia
72
13
Stt Zh Citrinet 1024 Gamma 0 25
これは中国語普通話の自動音声認識(ASR)用の非自己回帰Citrinetモデルで、約1.4億のパラメータを持ち、文字エンコーディングスキームとCTC損失/デコードを採用しています。
音声認識 Chinese
S
nvidia
92
5
Wav2vec2 Xls R 1b Npsc Bokmaal
Apache-2.0
facebook/wav2vec2-xls-r-1bモデルを基に、ノルウェー書面語(ブークモール)音声データセットでファインチューニングした自動音声認識モデル
音声認識 Transformers
W
NbAiLab
23
0
Wav2vec2 Large Xlsr 53 Chinese Zh Cn Gpt
Apache-2.0
facebook/wav2vec2-large-xlsr-53をベースに中国語(zh-CN)でCommon Voiceデータセットを使用してファインチューニングした音声認識モデル
音声認識 Transformers Chinese
W
ydshieh
127
32
Wav2vec2 Xls R 300m Cs Cv8
Apache-2.0
facebook/wav2vec2-xls-r-300mをベースにCommon Voice 8.0チェコ語データセットでファインチューニングした音声認識モデル
音声認識 Transformers Other
W
comodoro
13
1
Wav2vec2 Xls R 1b Ro
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-1bをルーマニア語のCommon Voice 7.0データセットでファインチューニングした自動音声認識モデルです。
音声認識 Transformers Other
W
ubamba98
16
0
Wav2vec2 Large Xlsr 53 Th
これはwav2vec2-large-xlsr-53モデルをベースに、タイ語Common Voice 7.0データセットでファインチューニングした自動音声認識(ASR)モデルです。
音声認識 Transformers Other
W
airesearch
110.74k
21
Wav2vec2 Bn 300m
Apache-2.0
facebook/wav2vec2-xls-r-300mをファインチューニングしたベンガル語自動音声認識モデル、OPENSLR_SLR53データセットでトレーニング
音声認識 Transformers Other
W
Tahsin-Mayeesha
25
4
Xls R 300m Et
facebook/wav2vec2-xls-r-300mをファインチューニングしたエストニア語自動音声認識モデルで、約800時間の多様なデータでトレーニング
音声認識 Transformers Other
X
TalTechNLP
58
1
Wav2vec2 Xls R Sl A1
Apache-2.0
これはfacebook/wav2vec2-xls-r-300mをベースに、スロベニア語(Common Voice 8.0)データセットで微調整された自動音声認識(ASR)モデルです。
音声認識 Transformers Other
W
DrishtiSharma
25
0
Wav2vec2 Large Xls R 300m Bg D2
Apache-2.0
facebook/wav2vec2-xls-r-300mをブルガリア語データセットでファインチューニングした自動音声認識モデル
音声認識 Transformers Other
W
DrishtiSharma
20
1
Xls R 1b Cv 8 Fr
Apache-2.0
これは、facebook/wav2vec2-xls-r-1bをベースに、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - FRデータセットで微調整されたフランス語自動音声認識モデルです。
音声認識 Transformers French
X
Plim
26
0
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase