# 高精度ASR

Gigaam Ctc With Lm
MIT
ロシア語自動音声認識モデル、外部ngram言語モデルとビームサーチデコードをサポート、単語レベルのタイムスタンプ抽出可能
音声認識 Transformers その他
G
waveletdeboshir
30
1
Quantum STT
Apache-2.0
Quantum_STT は、大規模な弱教師あり学習に基づく先進的な自動音声認識(ASR)および音声翻訳モデルで、複数の言語とタスクをサポートしています。
音声認識 Transformers 複数言語対応
Q
sbapan41
100
1
Gigaam Rnnt
MIT
GigaAM-v2-RNNT はロシア語自動音声認識(ASR)モデルで、RNNTアーキテクチャに基づいており、音声からテキストへの変換タスクに適しています。
音声認識 Transformers その他
G
waveletdeboshir
70
1
Gigaam Ctc
MIT
GigaAM-v2-CTCはCTC損失関数でトレーニングされたロシア語自動音声認識(ASR)モデルで、Hugging Face transformersライブラリを通じて利用可能です。
音声認識 Transformers その他
G
waveletdeboshir
255
1
Whisper Large V3 Persian Common Voice 17
Apache-2.0
Whisper Large v3をベースに微調整されたペルシア語自動音声認識モデルで、Common Voice 17データセットでトレーニングされ、250,000以上のペルシア語音声サンプルを含み、認識精度とロバスト性が大幅に向上しています。
音声認識 Transformers
W
MohammadGholizadeh
978
3
Canary 1b Flash
NVIDIA NeMo Canary Flashは多言語マルチタスクモデルファミリーで、複数の音声ベンチマークで最先端の性能を実現しています。4つの言語の自動音声認識と翻訳タスクをサポートします。
音声認識 複数言語対応
C
nvidia
125.22k
186
Phi 4 Multimodal Instruct Ko Asr
microsoft/Phi-4-multimodal-instructを微調整した韓国語自動音声認識(ASR)および音声翻訳(AST)モデルで、zeroth-koreanとfleursデータセットで優れた性能を発揮します。
テキスト生成オーディオ Transformers 韓国語
P
junnei
354
3
Whisper Large V3
Apache-2.0
OpenAI Whisper Large v3モデルをヘブライ語向けにファインチューニングしたバージョンで、ヘブライ語音声転写タスクに特化
音声認識 Transformers その他
W
ivrit-ai
2,068
3
Artst Asr V3 Qasr
MIT
QASRデータセットでファインチューニングされたアラビア語自動音声認識モデルで、特に方言変種に適しています
音声認識 Transformers 複数言語対応
A
MBZUAI
636
1
Vi Whisper Large V3 Turbo V1
ベトナム語自動音声認識(ASR)タスク向けに最適化されたWhisper-V3-Turboモデル、複数のベトナム語データセットでファインチューニング済み
音声認識 Transformers その他
V
suzii
182
7
Asr Streaming Conformer Gigaspeech
Apache-2.0
GigaSpeechデータセットで事前学習された英語の自動音声認識モデルで、ストリーミングと非ストリーミングの文字起こしをサポートします。
音声認識 英語
A
speechbrain
66
4
Ja Cascaded S2t Translation
Apache-2.0
これはカスケード方式に基づく日本語音声から任意のターゲット言語テキストへの翻訳パイプラインで、自動音声認識(ASR)とテキスト翻訳の2つの部分で構成されています。
音声認識 Transformers
J
japanese-asr
60
4
Parakeet Tdt Ctc 110m
NVIDIA NeMoとSuno.aiが共同開発した英語音声認識モデルで、句読点と大文字小文字変換をサポートし、FastConformer-TDT-CTCアーキテクチャを採用
音声認識 英語
P
nvidia
50.47k
28
Indicconformer Stt Gu Hybrid Ctc Rnnt Large
MIT
IndicConformerは、混合CTC-RNNTアーキテクチャに基づくConformer自動音声認識(ASR)モデルで、グジャラート語の音声転写に特化しています。
音声認識 その他
I
ai4bharat
340
1
Whisper Large V3 Ca 3catparla
Apache-2.0
これはカタルーニャ語に最適化された自動音声認識モデルで、OpenAIのWhisper-large-v3をファインチューニングしたもので、バルセロナスーパーコンピューティングセンターによって開発されました。
音声認識 Transformers その他
W
projecte-aina
122
4
Parakeet Tdt Ctc 0.6b Ja
Parakeet TDT-CTC 0.6Bは句読点付きの日本語音声を転写できる自動音声認識(ASR)モデルで、NVIDIA NeMoチームによって開発されました。
音声認識 日本語
P
nvidia
4,184
22
Asr Streaming Conformer Librispeech
Apache-2.0
これはLibriSpeechデータセットで事前学習されたエンドツーエンドの自動音声認識システムで、ストリーミングと非ストリーミングモードをサポートし、英語音声認識に適しています。
音声認識 英語
A
speechbrain
304
10
Canary 1b
Canary-1BはNVIDIA NeMoが開発した多言語マルチタスクモデルで、英語、ドイツ語、フランス語、スペイン語の自動音声認識と音声翻訳タスクをサポートします。
音声認識 複数言語対応
C
nvidia
7,734
421
Nb Whisper Large Verbatim
Apache-2.0
OpenAI Whisperを基に開発されたノルウェー語自動音声認識モデルで、追加トレーニングによりすべて小文字で句読点のない逐語転写を実現
音声認識 複数言語対応
N
NbAiLabBeta
765
2
Whisper Large V3
Apache-2.0
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
音声認識 複数言語対応
W
openai
4.6M
4,321
Indicwav2vec Odia
Apache-2.0
Wav2Vec2アーキテクチャに基づくヒンディー語自動音声認識(ASR)モデル、AI4Bharatによって開発
音声認識 Transformers その他
I
ai4bharat
401
2
Stt Ua Fastconformer Hybrid Large Pc
NVIDIA FastConformer-Hybrid Large (ua) はウクライナ語の音声認識に使用される混合モデルで、TransducerとCTCの2種類の損失関数を組み合わせて訓練され、パラメータは約1億1500万です。
音声認識
S
nvidia
381
4
Speecht5 Asr
MIT
LibriSpeechデータセットでファインチューニングされたSpeechT5自動音声認識モデルで、音声をテキストに変換する機能をサポートしています。
音声認識 Transformers
S
microsoft
12.30k
41
Whisper Th Medium Combined
Apache-2.0
openai/whisper-mediumをベースに、拡張版のタイ語データセットで微調整し、タイ語の自動音声認識に使用する。
音声認識 Transformers
W
biodatlab
4,167
17
Whisper Medium Ko Zeroth
Apache-2.0
OpenAI Whisper MediumモデルをZeroth韓国語データセットでファインチューニングした音声認識モデル、単語誤り率3.64%
音声認識 Transformers 韓国語
W
seastar105
154
16
Whisper Medium.en
Apache-2.0
WhisperはOpenAIが開発した自動音声認識(ASR)モデルで、68万時間のラベル付き音声データで訓練され、強力な汎化能力を持っています。
音声認識 英語
W
openai
36.92k
53
Exp W2v2t Zh Cn Wavlm S596
Apache-2.0
microsoft/wavlm-largeモデルを基にファインチューニングした中国語音声認識モデルで、簡体字中国語をサポートし、Common Voice 7.0 (zh-CN)データセットでトレーニングされています。
音声認識 Transformers
E
jonatasgrosman
22
1
Exp W2v2t Fr Unispeech S42
Apache-2.0
microsoft/unispeech-large-1500h-cvモデルをベースに、Common Voice 7.0(フランス語)データセットでファインチューニングした音声認識モデル
音声認識 Transformers フランス語
E
jonatasgrosman
20
0
Exp W2v2t It Vp 100k S449
Apache-2.0
facebook/wav2vec2-large-100k-voxpopuliモデルを基にファインチューニングしたイタリア語自動音声認識モデルで、Common Voice 7.0イタリア語データセットでトレーニングされています。
音声認識 Transformers その他
E
jonatasgrosman
17
0
Exp W2v2t It Wav2vec2 S609
Apache-2.0
facebook/wav2vec2-large-lv60モデルをベースにファインチューニングしたイタリア語自動音声認識モデル、Common Voice 7.0イタリア語データセットでトレーニング済み。
音声認識 Transformers その他
E
jonatasgrosman
18
0
Exp W2v2t Ja Vp It S544
Apache-2.0
facebook/wav2vec2-large-it-voxpopuliモデルをベースに、Common Voice 7.0(日本語版)のトレーニングセットを使用して音声認識のファインチューニングを行った日本語自動音声認識モデルです。
音声認識 Transformers 日本語
E
jonatasgrosman
18
0
Exp W2v2t Ja Unispeech Sat S884
Apache-2.0
microsoft/unispeech-sat-largeモデルをベースにファインチューニングした日本語自動音声認識モデルで、Common Voice 7.0日本語データセットでトレーニングされています。
音声認識 Transformers 日本語
E
jonatasgrosman
19
0
Exp W2v2t Ja Wavlm S729
Apache-2.0
microsoft/wavlm-largeモデルをファインチューニングした日本語自動音声認識モデル、Common Voice 7.0日本語データセットで学習
音声認識 Transformers 日本語
E
jonatasgrosman
15
2
Exp W2v2t En Unispeech Sat S459
Apache-2.0
マイクロソフトのUniSpeech-SAT-Largeモデルをファインチューニングした英語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
音声認識 Transformers 英語
E
jonatasgrosman
22
0
Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1
Apache-2.0
このモデルは、GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでwav2vec2-large-xlsr-53をファインチューニングした自動音声認識モデルで、主に歌唱音声認識タスクに使用されます。
音声認識 Transformers
A
gary109
185
0
First Model
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデルで、評価セットで低い単語誤り率を達成しました。
音声認識 Transformers
F
Vkt
26
0
Wav2vec2 Large Xlsr 53 Spanish With Lm
Apache-2.0
これはWav2Vec2-Large-XLSR-53をベースにしたスペイン語音声認識モデルで、言語モデルサポートを追加することで認識精度が大幅に向上しています。
音声認識 スペイン語
W
patrickvonplaten
2,198
8
Wav2vec2 Base 10k Voxpopuli Ft Fr
Facebook Wav2Vec2アーキテクチャに基づく音声認識モデルで、VoxPopuliコーパスの10Kのラベルなしフランス語データで事前学習され、フランス語転写データでファインチューニングされています。
音声認識 Transformers フランス語
W
facebook
75
0
Wav2vec2 Large Lv60 Timit
Apache-2.0
facebook/wav2vec2-large-lv60モデルをTIMITデータセットでファインチューニングした音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
音声認識 英語
W
harshit345
21
1
Wav2vec2 Large Xlsr 53 Turkish
Apache-2.0
facebook/wav2vec2-large-xlsr-53をベースに、トルコ語のCommon Voiceデータセットで微調整した音声認識モデル
音声認識 Transformers その他
W
ozcangundes
234
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase