# 低WER

Wav2vec2 Large Xlsr Sundanese
Apache-2.0
facebook/wav2vec2-large-xlsr-53をファインチューニングしたスンダ語音声認識モデル。トレーニングデータはOpenSLRの高品質TTSデータセットを使用
音声認識 その他
W
cahya
339
0
Whosper Large V2
Apache-2.0
Whosper-large-v2は、セネガルの主要言語であるウォロフ語に特化した最先端の音声認識モデルで、OpenAIのWhisper-large-v2を基に構築されており、単語誤り率(WER)と文字誤り率(CER)を大幅に改善しています。
音声認識 複数言語対応
W
CAYTU
449
6
Whisper Hindi2Hinglish Swift
Apache-2.0
Whisperアーキテクチャを基に最適化されたヒンディー語-ヒンディー英語混合音声認識モデル、インド訛りとノイズ環境向けに特別設計
音声認識 Transformers 複数言語対応
W
Oriserve
496
6
Viwhisper Medium
MIT
ベトナム語音声認識タスク向けに最適化されたWhisper-mediumモデル、1308時間のベトナム語データでファインチューニング済み
音声認識 Transformers その他
V
NhutP
139
4
Parakeet Ctc 0.6b
Parakeet CTC 0.6BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャに基づき、約6億のパラメータを持ち、英語音声の書き起こしをサポートします。
音声認識 英語
P
nvidia
6,528
13
Parakeet Rnnt 0.6b
Parakeet RNNT 0.6B は、NVIDIA NeMo と Suno.ai が共同開発した自動音声認識モデルで、FastConformer アーキテクチャを基にし、約6億のパラメータを持ち、英語音声をテキストに転写するために特別に設計されています。
音声認識 英語
P
nvidia
92.27k
8
Parakeet Ctc 1.1b
Parakeet CTC 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャを基に約11億のパラメータを持ち、英語音声の転写をサポートします。
音声認識 英語
P
nvidia
14.78k
29
Whisper Large V3 French
MIT
OpenAI Whisper-large-v3をファインチューニングしたフランス語自動音声認識モデルで、大文字小文字、句読点、数字の予測をサポート
音声認識 Transformers フランス語
W
bofenghuang
771
28
Asr Whisper Medium Commonvoice Ar
Apache-2.0
CommonVoiceアラビア語データセットでファインチューニングされたWhisper medium音声認識モデル、SpeechBrainチームによって開発
音声認識 アラビア語
A
speechbrain
17
2
Stt En Fastconformer Transducer Xlarge
NVIDIA FastConformer-Transducerは、英語の自動音声認識(ASR)向けの高性能モデルで、最適化されたFastConformerアーキテクチャとTransducerデコーダを採用し、パラメータ規模は約6.18億です。
音声認識 英語
S
nvidia
106
24
Stt En Fastconformer Ctc Xlarge
NVIDIA FastConformer-CTC XLargeは約6億パラメータの自動音声認識(ASR)モデルで、英語音声の文字起こしのために設計され、FastConformerアーキテクチャとCTC損失でトレーニングされています。
音声認識 英語
S
nvidia
216
2
Whisper Small Cv11 French
Apache-2.0
openai/whisper-smallを基にファインチューニングしたフランス語自動音声認識モデルで、Common Voice 11.0のフランス語データセットで訓練され、大文字小文字と句読点の予測をサポートしています。
音声認識 Transformers フランス語
W
bofenghuang
266
4
Wav2vec2 Base Vi Vlsp2020
wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル。13,000時間の未ラベルYouTube音声で事前学習され、250時間のラベル付きデータで微調整されています。
音声認識 Transformers その他
W
nguyenvulebinh
262
3
Stt Rw Conformer Transducer Large
これはルワンダ語の音声認識に使用されるConformer-Transducerの大型モデルで、音声を小文字のラテン文字に文字起こしでき、空白とアポストロフィをサポートします。
音声認識 その他
S
nvidia
116
1
Stt Es Conformer Transducer Large
これはスペイン語自動音声認識用の大型Conformer-トランスデューサーモデルで、約1.2億パラメータを持ち、1340時間のスペイン語音声データでトレーニングされています。
音声認識 スペイン語
S
nvidia
708
4
Stt De Conformer Transducer Large
これはドイツ語の自動音声認識用の大規模なConformer-Transducerモデルで、約1.2億のパラメータを持ち、ドイツ語音声をテキストに変換します。
音声認識 ドイツ語
S
nvidia
66
6
Stt De Conformer Ctc Large
これはドイツ語自動音声認識のための大規模Conformer-CTCモデルで、NVIDIAが数千時間のドイツ語音声データでトレーニングおよび最適化しました。
音声認識 ドイツ語
S
nvidia
132
4
Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1
Apache-2.0
facebook/wav2vec2-large-xlsr-53をベースに中国語AISHELL-1データセットでファインチューニングした音声認識モデルで、中国語音声認識タスクをサポートします。
音声認識 Transformers 中国語
W
qinyue
22
6
Wav2vec2 Large Xlsr 53 German Cv9
Apache-2.0
これはFacebookのwav2vec2-large-xlsr-53モデルを基に、ドイツ語Common Voice 9.0データセットでファインチューニングした自動音声認識(ASR)モデルです。
音声認識 Transformers ドイツ語
W
oliverguhr
98
1
Wav2vec2 Base Vietnamese 160h
Wav2vec2ベースのベトナム語音声認識モデル、160時間のベトナム語音声データでファインチューニング
音声認識 Transformers その他
W
khanhld
356
10
Wav2vec2 Base Da Ft Nst
Apache-2.0
NSTデータセットでファインチューニングされたデンマーク語音声認識モデル、16kHzサンプリングレートの音声入力をサポート
音声認識 Transformers その他
W
Alvenir
15
3
Wav2vec2 Large Xlsr Open Brazilian Portuguese V2
Apache-2.0
これはブラジルポルトガル語に最適化されたWav2vec2モデルで、複数のオープンデータセットでトレーニングされ、自動音声認識タスクに使用されます。
音声認識 Transformers その他
W
lgris
1,825
18
Wav2vec2 Live Japanese
Apache-2.0
facebook/wav2vec2-large-xlsr-53を微調整した日本語音声認識モデルで、平仮名出力に対応しています。
音声認識 Transformers 日本語
W
ttop324
20
4
Bp500 Base100k Voxpopuli
Apache-2.0
ブラジルポルトガル語に最適化された音声認識モデル、7つの公開データセット計453時間の音声でトレーニング
音声認識 Transformers その他
B
lgris
23
1
Bp500 Xlsr
Apache-2.0
これはブラジルポルトガル語に対して微調整されたWav2vec 2.0モデルで、複数のブラジルポルトガル語データセットを使用して訓練され、Common VoiceテストセットでのWERは13.6です。
音声認識 Transformers その他
B
lgris
21
1
Wav2vec2 Base Cynthia Tedlium 2500 V2
Apache-2.0
このモデルは、facebook/wav2vec2-base-960hをベースにTED-LIUMデータセットで微調整した音声認識モデルで、評価セットで20.33%の単語誤り率を達成しています。
音声認識 Transformers
W
huyue012
25
0
Asr Wav2vec2 Commonvoice Fr
Apache-2.0
CommonVoiceフランス語データセットを基に訓練されたwav2vec 2.0音声認識モデルで、CTC/Attentionアーキテクチャを使用し、言語モデルは不要です。
音声認識 フランス語
A
speechbrain
250
10
Bp400 Xlsr
Apache-2.0
ブラジルポルトガル語データセットを用いて微調整されたWav2vec 2.0音声認識モデルで、ブラジルポルトガル語の自動音声認識タスクをサポートします。
音声認識 Transformers その他
B
lgris
55
3
Wav2vec2 Large Xlsr 53 Esperanto
Apache-2.0
これはFacebookのwav2vec2-large-xlsr-53モデルをファインチューニングしたエスペラント(Esperanto)音声認識モデルで、Common Voiceデータセットでトレーニングされています。
音声認識 その他
W
cpierse
8,681
6
Wav2vec2 Large Xlsr Open Brazilian Portuguese
Apache-2.0
これはブラジルポルトガル語に対して微調整されたWav2vec 2.0モデルで、Common Voice、MLS、CETUCなどの複数のオープンブラジルポルトガル語データセットを使用して訓練されています。
音声認識 Transformers その他
W
lgris
395
9
Wav2vec2 Large Xlsr 53 Es
Apache-2.0
Facebookのwav2vec2-large-xlsr-53モデルをベースに、スペイン語Common Voiceデータセットで微調整した音声認識モデルで、テストWERは10.50%です。
音声認識 Transformers スペイン語
W
pcuenq
147
0
Wav2vec2 Large Xlsr Eo
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースに、Common Voiceデータセットを使ってエスペラント語に対して微調整された音声認識モデルです。
音声認識 その他
W
gchhablani
23
1
Wav2vec2 Large Xlsr Turkish
Apache-2.0
これはfacebook/wav2vec2-large-xlsr-53モデルを基に、トルコ語Common Voiceデータセットでファインチューニングした自動音声認識モデルで、テストWERは21.13%です。
音声認識 その他
W
cahya
61
2
Galician Xlsr
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-300mをガリシア語データセットでファインチューニングした自動音声認識モデルで、Common Voice 8.0テストセットで11.31%のWERを達成しました。
音声認識 Transformers その他
G
Akashpb13
110
1
Xls R Nl V1 Cv8 Lm
これはXLS-Rアーキテクチャに基づく自動音声認識モデルで、オランダ語とフラマン語に特化して最適化されており、5-gram言語モデルを組み合わせることで認識精度を向上させています。
音声認識 Transformers その他
X
FremyCompany
14
3
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase