2025年最高の 1876 個の音声認識ツール

Voice Activity Detection
MIT
pyannote.audio 2.1バージョンに基づく音声活動検出モデルで、音声中の音声活動時間帯を識別するために使用されます
音声認識
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
これはポルトガル語音声認識タスク向けにファインチューニングされたXLSR-53大規模モデルで、Common Voice 6.1データセットでトレーニングされ、ポルトガル語音声からテキストへの変換をサポートします。
音声認識 その他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
WhisperはOpenAIが提案した先進的な自動音声認識(ASR)および音声翻訳モデルで、500万時間以上の注釈付きデータで訓練されており、強力なデータセット間およびドメイン間の汎化能力を持っています。
音声認識 複数言語対応
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
WhisperはOpenAIが開発した最先端の自動音声認識(ASR)および音声翻訳モデルで、500万時間以上のラベル付きデータでトレーニングされ、ゼロショット設定において強力な汎化能力を発揮します。
音声認識 Transformers 複数言語対応
W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたロシア語音声認識モデル、16kHzサンプリングレートの音声入力をサポート
音声認識 その他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングした中国語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートしています。
音声認識 中国語
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
facebook/wav2vec2-large-xlsr-53をファインチューニングしたオランダ語音声認識モデルで、Common VoiceとCSS10データセットでトレーニングされ、16kHz音声入力に対応しています。
音声認識 その他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースにファインチューニングした日本語音声認識モデルで、16kHzサンプリングレートの音声入力をサポート
音声認識 日本語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
Hugging Faceの事前学習モデルを基にしたテキストと音声の強制アライメントツールで、多言語対応かつメモリ効率に優れています
音声認識 Transformers 複数言語対応
M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
facebook/wav2vec2-large-xlsr - 53をベースに微調整されたアラビア語音声認識モデルで、Common Voiceとアラビア語音声コーパスで訓練されました。
音声認識 アラビア語
W
jonatasgrosman
2.3M
37
Whisper Base.en
Apache-2.0
Whisperは強力な自動音声認識モデルで、68万時間のデータで訓練され、優れた汎化能力を持っています。
音声認識 英語
W
openai
2.2M
37
Wav2vec2 Base 960h
Apache-2.0
Facebookが開発したWav2Vec2の基礎モデルで、960時間のLibrispeech音声オーディオで事前学習と微調整を行い、英語の自動音声認識タスクに使用されます。
音声認識 Transformers 英語
W
facebook
2.1M
331
Whisper Small
Apache-2.0
Whisperは、事前学習された自動音声認識(ASR)および音声翻訳モデルで、68万時間のラベル付きデータで学習され、強力な汎化能力を持っています。
音声認識 複数言語対応
W
openai
2.0M
381
Wav2vec2 Large Xlsr Korean
Apache-2.0
Wav2Vec2 XLSRアーキテクチャに基づく韓国語自動音声認識(ASR)モデルで、Zeroth韓国語データセットで優れた性能を発揮
音声認識 Transformers 韓国語
W
kresnik
1.7M
44
Wav2vec2 Large Xlsr Hindi
facebook/wav2vec2-large-xlsr-53を低リソースのインド言語データセットでファインチューニングしたヒンディー語自動音声認識モデル
音声認識 Transformers その他
W
theainerd
1.6M
7
Wav2vec2 Xls R 300m Ftspeech
その他
facebook/wav2vec2-xls-r-300mを基にデンマーク議会音声データセットで微調整したデンマーク語自動音声認識モデル
音声認識 Transformers その他
W
saattrupdan
1.3M
0
Wav2vec2 Xls R 300m Hebrew
これはfacebook/wav2vec2-xls-r-300mモデルをファインチューニングしたヘブライ語自動音声認識モデルで、2段階のトレーニングにより小規模と大規模のデータセットで性能を最適化しています。
音声認識 Transformers その他
W
imvladikon
1.2M
4
Filipino Wav2vec2 L Xls R 300m Official
Apache-2.0
facebook/wav2vec2-xls-r-300mをフィリピン語音声データセットでファインチューニングした音声認識モデル
音声認識 Transformers
F
Khalsuu
1.2M
1
Faster Whisper Base
MIT
これはOpenAI WhisperベースモデルのCTranslate2変換バージョンで、効率的な音声認識タスクに使用されます。
音声認識 複数言語対応
F
Systran
1.1M
13
Faster Whisper Large V2
MIT
Whisper large-v2はOpenAIが開発した大規模自動音声認識(ASR)モデルで、複数言語の音声から文字への変換タスクをサポートします。
音声認識 複数言語対応
F
Systran
948.29k
34
Faster Whisper Tiny
MIT
OpenAI Whisperミニモデルに基づくCTranslate2変換バージョンで、効率的な音声認識に使用されます。
音声認識 複数言語対応
F
Systran
875.91k
10
Hubert Large Ls960 Ft
Apache-2.0
HuBERT-Largeは、LibriSpeechの960時間の音声データで微調整された自己教師付き音声表現学習モデルで、自動音声認識タスクに使用されます。
音声認識 Transformers 英語
H
facebook
776.27k
66
Faster Whisper Large V3
MIT
Whisper large-v3はOpenAIが開発した大規模多言語自動音声認識(ASR)モデルで、複数言語の音声からテキストへの変換タスクをサポートしています。
音声認識 複数言語対応
F
Systran
713.48k
376
Wav2vec2 Xls R 300m Cv7 Turkish
facebook/wav2vec2-xls-r-300mを基にトルコ語でファインチューニングした自動音声認識モデル
音声認識 Transformers その他
W
mpoyraz
685.31k
11
Wavlm Base Plus
WavLMはマイクロソフトによって開発された大規模な自己教師付き事前学習音声モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、様々な音声処理タスクに適用できます。
音声認識 Transformers 英語
W
microsoft
673.32k
31
Wav2vec2 Xls R 1b Portuguese
Apache-2.0
これはXLS-R 1Bアーキテクチャに基づくポルトガル語自動音声認識モデルで、複数のポルトガル語音声データセットでファインチューニングされています。
音声認識 Transformers その他
W
jonatasgrosman
648.50k
12
Whisper Base
Apache-2.0
Whisperは事前訓練された自動音声認識(ASR)および音声翻訳モデルで、68万時間の注釈付きデータで訓練されており、強力な汎化能力を備えています。
音声認識 複数言語対応
W
openai
491.35k
216
W2v Bert 2.0
MIT
Conformerアーキテクチャに基づく音声エンコーダーで、450万時間のラベルなし音声データで事前学習され、143以上の言語をサポート
音声認識 Transformers 複数言語対応
W
facebook
477.05k
170
Distil Large V3
MIT
Distil-WhisperはWhisper large-v3の知識蒸留バージョンで、英語自動音声認識に特化し、より高速な推論速度を提供しながら、オリジナルモデルに近い精度を維持します。
音声認識 英語
D
distil-whisper
417.11k
311
Wav2vec2 Large Xlsr 53 Polish
Apache-2.0
ポーランド語に最適化されたXLSR-53大規模音声認識システム、facebook/wav2vec2-large-xlsr-53を基にファインチューニング、ポーランド語自動音声認識をサポート
音声認識 その他
W
jonatasgrosman
412.13k
11
Hubert Base Ls960
Apache-2.0
HuBERTは自己教師あり音声表現学習モデルで、BERTのような予測損失を通じて音声特徴を学習し、音声認識などのタスクに適しています。
音声認識 Transformers 英語
H
facebook
406.60k
55
Wavlm Large
WavLMはマイクロソフトが開発した大規模自己教師付き音声事前学習モデルで、フルスタック音声処理タスクをサポートし、SUPERBベンチマークテストで優れた性能を発揮します。
音声認識 Transformers 英語
W
microsoft
396.53k
74
Whisper Medium
Apache-2.0
Whisperは、事前学習された自動音声認識(ASR)および音声翻訳モデルで、68万時間のアノテーション付きデータで学習され、強力なクロスドメイン汎化能力を持っています。
音声認識 複数言語対応
W
openai
394.31k
239
Faster Whisper Small
MIT
OpenAI Whisper小型モデルのCTranslate2フォーマット変換版、効率的な音声認識用
音声認識 複数言語対応
F
Systran
376.48k
13
Wav2vec2 Large Robust Ft Libritts Voxpopuli
wav2vec2-largeに基づく音声認識モデルで、句読点付きの転写テキストを生成するために設計され、TTSモデルの構築に適しています。
音声認識 Transformers
W
jbetker
339.01k
8
Whisper Tiny
Apache-2.0
Whisper TinyはOpenAIが開発した自動音声認識(ASR)モデルで、Whisperシリーズの中で最も小さいバージョンであり、パラメータ規模は39Mです。
音声認識 複数言語対応
W
openai
328.82k
318
Wav2vec2 Xlsr 53 Espeak Cv Ft
Apache-2.0
このモデルは、wav2vec2-large-xlsr-53の事前学習モデルをCommonVoiceデータセットで微調整した多言語音素識別モデルで、複数の言語の音素ラベル識別をサポートします。
音声認識 Transformers
W
facebook
315.39k
31
Whisperkit Coreml
WhisperKit は Apple Silicon 向けのローカル音声認識フレームワークで、効率的な自動音声認識タスクをサポートします。
音声認識 その他
W
argmaxinc
296.02k
126
Wav2vec2 Large Xlsr 53 Persian
Apache-2.0
ペルシア語に最適化されたXLSR - 53大規模モデルの音声認識システムで、facebook/wav2vec2-large-xlsr-53アーキテクチャに基づいて微調整されています。
音声認識 その他
W
jonatasgrosman
257.76k
22
Faster Whisper Large V3 Turbo Ct2
MIT
これはWhisper large-v3 turboモデルをCTranslate2形式に変換したバージョンで、効率的な自動音声認識タスクに使用されます。
音声認識 複数言語対応
F
deepdml
254.96k
128
Wav2vec2 Large Xlsr 53 English
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースに微調整された英語音声認識モデルで、Common Voice 6.1データセットで訓練されました。
音声認識 英語
W
jonatasgrosman
251.78k
471
Wav2vec2 Xls R 300m Cs 250
Apache-2.0
これはfacebook/wav2vec2-xls-r-300mをチェコ語データセットでファインチューニングした自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
音声認識 Transformers その他
W
comodoro
248.66k
2
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase