2025年最佳的 1878 个语音识别工具

Voice Activity Detection
MIT
基于pyannote.audio 2.1版本的语音活动检测模型,用于识别音频中的语音活动时间段
语音识别
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
这是一个针对葡萄牙语语音识别任务微调的XLSR-53大模型,基于Common Voice 6.1数据集训练,支持葡萄牙语语音转文本。
语音识别 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别 支持多种语言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
语音识别 Transformers 支持多种语言
W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型,支持16kHz采样率的语音输入
语音识别 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型,支持16kHz采样率的语音输入。
语音识别 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的荷兰语语音识别模型,在Common Voice和CSS10数据集上训练,支持16kHz音频输入。
语音识别 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型,支持16kHz采样率的语音输入
语音识别 日语
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基于Hugging Face预训练模型的文本与音频强制对齐工具,支持多种语言,内存效率高
语音识别 Transformers 支持多种语言
M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的阿拉伯语语音识别模型,在Common Voice和阿拉伯语语音语料库上训练
语音识别 阿拉伯语
W
jonatasgrosman
2.3M
37
Whisper Base.en
Apache-2.0
Whisper是一个强大的自动语音识别模型,经过68万小时的数据训练,具备优异的泛化能力。
语音识别 英语
W
openai
2.2M
37
Wav2vec2 Base 960h
Apache-2.0
Facebook开发的Wav2Vec2基础模型,在960小时的Librispeech语音音频上进行了预训练和微调,用于英语自动语音识别任务。
语音识别 Transformers 英语
W
facebook
2.1M
331
Whisper Small
Apache-2.0
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,经过68万小时标注数据训练,具有强大的泛化能力。
语音识别 支持多种语言
W
openai
2.0M
381
Wav2vec2 Large Xlsr Korean
Apache-2.0
基于Wav2Vec2 XLSR架构的韩语自动语音识别(ASR)模型,在Zeroth韩语数据集上表现出色
语音识别 Transformers 韩语
W
kresnik
1.7M
44
Wav2vec2 Large Xlsr Hindi
基于facebook/wav2vec2-large-xlsr-53在低资源印度语言数据集上微调的印地语自动语音识别模型
语音识别 Transformers 其他
W
theainerd
1.6M
7
Wav2vec2 Xls R 300m Ftspeech
其他
基于facebook/wav2vec2-xls-r-300m在丹麦议会语音数据集上微调的丹麦语自动语音识别模型
语音识别 Transformers 其他
W
saattrupdan
1.3M
0
Wav2vec2 Xls R 300m Hebrew
这是一个基于facebook/wav2vec2-xls-r-300m模型微调的希伯来语自动语音识别模型,通过两阶段训练在小规模和大规模数据集上优化性能。
语音识别 Transformers 其他
W
imvladikon
1.2M
4
Filipino Wav2vec2 L Xls R 300m Official
Apache-2.0
基于facebook/wav2vec2-xls-r-300m在菲律宾语音数据集上微调的语音识别模型
语音识别 Transformers
F
Khalsuu
1.2M
1
Faster Whisper Base
MIT
这是OpenAI Whisper基础模型的CTranslate2转换版本,用于高效语音识别任务。
语音识别 支持多种语言
F
Systran
1.1M
13
Faster Whisper Large V2
MIT
Whisper large-v2是OpenAI开发的大规模自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
语音识别 支持多种语言
F
Systran
948.29k
34
Faster Whisper Tiny
MIT
基于OpenAI Whisper微型模型的CTranslate2转换版本,用于高效语音识别
语音识别 支持多种语言
F
Systran
875.91k
10
Hubert Large Ls960 Ft
Apache-2.0
HuBERT-Large是基于LibriSpeech 960小时语音数据微调的自监督语音表示学习模型,用于自动语音识别任务。
语音识别 Transformers 英语
H
facebook
776.27k
66
Faster Whisper Large V3
MIT
Whisper large-v3是OpenAI开发的大规模多语言自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
语音识别 支持多种语言
F
Systran
713.48k
376
Wav2vec2 Xls R 300m Cv7 Turkish
基于facebook/wav2vec2-xls-r-300m在土耳其语上微调的自动语音识别模型
语音识别 Transformers 其他
W
mpoyraz
685.31k
11
Wavlm Base Plus
WavLM是由微软开发的大规模自监督预训练语音模型,基于16kHz采样的语音音频进行预训练,适用于多种语音处理任务。
语音识别 Transformers 英语
W
microsoft
673.32k
31
Wav2vec2 Xls R 1b Portuguese
Apache-2.0
这是一个基于XLS-R 1B架构的葡萄牙语自动语音识别模型,在多个葡萄牙语语音数据集上进行了微调。
语音识别 Transformers 其他
W
jonatasgrosman
648.50k
12
Whisper Base
Apache-2.0
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,经过68万小时标注数据训练,具有强大的泛化能力。
语音识别 支持多种语言
W
openai
491.35k
216
W2v Bert 2.0
MIT
基于Conformer架构的语音编码器,在450万小时无标注音频数据上预训练,支持143种以上语言
语音识别 Transformers 支持多种语言
W
facebook
477.05k
170
Distil Large V3
MIT
Distil-Whisper是Whisper large-v3的知识蒸馏版本,专注于英语自动语音识别,提供更快的推理速度同时保持接近原始模型的准确性。
语音识别 英语
D
distil-whisper
417.11k
311
Wav2vec2 Large Xlsr 53 Polish
Apache-2.0
针对波兰语优化的XLSR-53大模型语音识别系统,基于facebook/wav2vec2-large-xlsr-53微调,支持波兰语自动语音识别
语音识别 其他
W
jonatasgrosman
412.13k
11
Hubert Base Ls960
Apache-2.0
HuBERT是一种自监督语音表示学习模型,通过类似BERT的预测损失学习语音特征,适用于语音识别等任务。
语音识别 Transformers 英语
H
facebook
406.60k
55
Wavlm Large
WavLM是微软开发的大规模自监督语音预训练模型,支持全栈语音处理任务,在SUPERB基准测试中表现优异。
语音识别 Transformers 英语
W
microsoft
396.53k
74
Whisper Medium
Apache-2.0
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,经过68万小时标注数据训练,具有强大的跨领域泛化能力。
语音识别 支持多种语言
W
openai
394.31k
239
Faster Whisper Small
MIT
基于OpenAI Whisper小型模型的CTranslate2格式转换版本,用于高效语音识别
语音识别 支持多种语言
F
Systran
376.48k
13
Faster Whisper Base.en
MIT
这是一个基于CTranslate2转换的Whisper base.en模型,用于英语语音识别任务。
语音识别 英语
F
Systran
367.44k
4
Wav2vec2 Large Robust Ft Libritts Voxpopuli
基于wav2vec2-large的语音识别模型,专为生成带标点符号的转录文本设计,适用于TTS模型构建。
语音识别 Transformers
W
jbetker
339.01k
8
Whisper Tiny
Apache-2.0
Whisper Tiny是OpenAI开发的自动语音识别(ASR)模型,属于Whisper系列中最小的版本,参数规模为39M。
语音识别 支持多种语言
W
openai
328.82k
318
Wav2vec2 Xlsr 53 Espeak Cv Ft
Apache-2.0
该模型是基于wav2vec2-large-xlsr-53预训练模型在CommonVoice数据集上微调的多语言音素识别模型,支持多种语言的音素标签识别。
语音识别 Transformers
W
facebook
315.39k
31
Whisperkit Coreml
WhisperKit 是一款面向 Apple Silicon 的本地语音识别框架,支持高效的自动语音识别任务。
语音识别 其他
W
argmaxinc
296.02k
126
Wav2vec2 Large Xlsr 53 Persian
Apache-2.0
针对波斯语优化的XLSR-53大模型语音识别系统,基于facebook/wav2vec2-large-xlsr-53架构微调
语音识别 其他
W
jonatasgrosman
257.76k
22
Faster Whisper Large V3 Turbo Ct2
MIT
这是将Whisper large-v3 turbo模型转换为CTranslate2格式的版本,用于高效的自动语音识别任务。
语音识别 支持多种语言
F
deepdml
254.96k
128
Wav2vec2 Large Xlsr 53 English
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的英语语音识别模型,在Common Voice 6.1数据集上训练
语音识别 英语
W
jonatasgrosman
251.78k
471
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase