语音识别

2025年最佳的 1878 个语音识别工具

Voice Activity Detection

基于pyannote.audio 2.1版本的语音活动检测模型，用于识别音频中的语音活动时间段

Wav2vec2 Large Xlsr 53 Portuguese

这是一个针对葡萄牙语语音识别任务微调的XLSR-53大模型，基于Common Voice 6.1数据集训练，支持葡萄牙语语音转文本。

语音识别其他

Whisper Large V3

Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型，在超过500万小时的标注数据上训练，具有强大的跨数据集和跨领域泛化能力。

语音识别支持多种语言

Whisper Large V3 Turbo

Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型，经过超过500万小时标记数据的训练，在零样本设置下展现出强大的泛化能力。

Transformers 支持多种语言

Wav2vec2 Large Xlsr 53 Russian

基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型，支持16kHz采样率的语音输入

语音识别其他

Wav2vec2 Large Xlsr 53 Chinese Zh Cn

基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型，支持16kHz采样率的语音输入。

语音识别中文

Wav2vec2 Large Xlsr 53 Dutch

基于facebook/wav2vec2-large-xlsr-53微调的荷兰语语音识别模型，在Common Voice和CSS10数据集上训练，支持16kHz音频输入。

语音识别其他

Wav2vec2 Large Xlsr 53 Japanese

基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型，支持16kHz采样率的语音输入

语音识别日语

Mms 300m 1130 Forced Aligner

基于Hugging Face预训练模型的文本与音频强制对齐工具，支持多种语言，内存效率高

Transformers 支持多种语言

Wav2vec2 Large Xlsr 53 Arabic

基于facebook/wav2vec2-large-xlsr-53微调的阿拉伯语语音识别模型，在Common Voice和阿拉伯语语音语料库上训练

语音识别阿拉伯语

Whisper Base.en

Whisper是一个强大的自动语音识别模型，经过68万小时的数据训练，具备优异的泛化能力。

语音识别英语

Wav2vec2 Base 960h

Facebook开发的Wav2Vec2基础模型，在960小时的Librispeech语音音频上进行了预训练和微调，用于英语自动语音识别任务。

Transformers 英语

Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型，经过68万小时标注数据训练，具有强大的泛化能力。

语音识别支持多种语言

Wav2vec2 Large Xlsr Korean

基于Wav2Vec2 XLSR架构的韩语自动语音识别(ASR)模型，在Zeroth韩语数据集上表现出色

Transformers 韩语

Wav2vec2 Large Xlsr Hindi

基于facebook/wav2vec2-large-xlsr-53在低资源印度语言数据集上微调的印地语自动语音识别模型

Transformers 其他

Wav2vec2 Xls R 300m Ftspeech

基于facebook/wav2vec2-xls-r-300m在丹麦议会语音数据集上微调的丹麦语自动语音识别模型

Transformers 其他

Wav2vec2 Xls R 300m Hebrew

这是一个基于facebook/wav2vec2-xls-r-300m模型微调的希伯来语自动语音识别模型，通过两阶段训练在小规模和大规模数据集上优化性能。

Transformers 其他

Filipino Wav2vec2 L Xls R 300m Official

基于facebook/wav2vec2-xls-r-300m在菲律宾语音数据集上微调的语音识别模型

Faster Whisper Base

这是OpenAI Whisper基础模型的CTranslate2转换版本，用于高效语音识别任务。

语音识别支持多种语言

Faster Whisper Large V2

Whisper large-v2是OpenAI开发的大规模自动语音识别(ASR)模型，支持多种语言的语音转文字任务。

语音识别支持多种语言

Faster Whisper Tiny

基于OpenAI Whisper微型模型的CTranslate2转换版本，用于高效语音识别

语音识别支持多种语言

Hubert Large Ls960 Ft

HuBERT-Large是基于LibriSpeech 960小时语音数据微调的自监督语音表示学习模型，用于自动语音识别任务。

Transformers 英语

Faster Whisper Large V3

Whisper large-v3是OpenAI开发的大规模多语言自动语音识别(ASR)模型，支持多种语言的语音转文字任务。

语音识别支持多种语言

Wav2vec2 Xls R 300m Cv7 Turkish

基于facebook/wav2vec2-xls-r-300m在土耳其语上微调的自动语音识别模型

Transformers 其他

Wavlm Base Plus

WavLM是由微软开发的大规模自监督预训练语音模型，基于16kHz采样的语音音频进行预训练，适用于多种语音处理任务。

Transformers 英语

Wav2vec2 Xls R 1b Portuguese

这是一个基于XLS-R 1B架构的葡萄牙语自动语音识别模型，在多个葡萄牙语语音数据集上进行了微调。

Transformers 其他

Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型，经过68万小时标注数据训练，具有强大的泛化能力。

语音识别支持多种语言

基于Conformer架构的语音编码器，在450万小时无标注音频数据上预训练，支持143种以上语言

Transformers 支持多种语言

Distil Large V3

Distil-Whisper是Whisper large-v3的知识蒸馏版本，专注于英语自动语音识别，提供更快的推理速度同时保持接近原始模型的准确性。

语音识别英语

Wav2vec2 Large Xlsr 53 Polish

针对波兰语优化的XLSR-53大模型语音识别系统，基于facebook/wav2vec2-large-xlsr-53微调，支持波兰语自动语音识别

语音识别其他

Hubert Base Ls960

HuBERT是一种自监督语音表示学习模型，通过类似BERT的预测损失学习语音特征，适用于语音识别等任务。

Transformers 英语

WavLM是微软开发的大规模自监督语音预训练模型，支持全栈语音处理任务，在SUPERB基准测试中表现优异。

Transformers 英语

Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型，经过68万小时标注数据训练，具有强大的跨领域泛化能力。

语音识别支持多种语言

Faster Whisper Small

基于OpenAI Whisper小型模型的CTranslate2格式转换版本，用于高效语音识别

语音识别支持多种语言

Faster Whisper Base.en

这是一个基于CTranslate2转换的Whisper base.en模型，用于英语语音识别任务。

语音识别英语

Wav2vec2 Large Robust Ft Libritts Voxpopuli

基于wav2vec2-large的语音识别模型，专为生成带标点符号的转录文本设计，适用于TTS模型构建。

Whisper Tiny是OpenAI开发的自动语音识别(ASR)模型，属于Whisper系列中最小的版本，参数规模为39M。

语音识别支持多种语言

Wav2vec2 Xlsr 53 Espeak Cv Ft

该模型是基于wav2vec2-large-xlsr-53预训练模型在CommonVoice数据集上微调的多语言音素识别模型，支持多种语言的音素标签识别。

Whisperkit Coreml

WhisperKit 是一款面向 Apple Silicon 的本地语音识别框架，支持高效的自动语音识别任务。

语音识别其他

Wav2vec2 Large Xlsr 53 Persian

针对波斯语优化的XLSR-53大模型语音识别系统，基于facebook/wav2vec2-large-xlsr-53架构微调

语音识别其他

Faster Whisper Large V3 Turbo Ct2

这是将Whisper large-v3 turbo模型转换为CTranslate2格式的版本，用于高效的自动语音识别任务。

语音识别支持多种语言

Wav2vec2 Large Xlsr 53 English

基于facebook/wav2vec2-large-xlsr-53模型微调的英语语音识别模型，在Common Voice 6.1数据集上训练

语音识别英语

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase