# 多语言语音识别

Whisper Small
Apache-2.0
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
语音识别 Safetensors 支持多种语言
W
unsloth
50
1
Whisper Large V3 Turbo
MIT
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
语音识别 Transformers 支持多种语言
W
unsloth
94
1
Whisper Large V3
Apache-2.0
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,支持多种语言
语音识别 Safetensors 支持多种语言
W
unsloth
4,002
1
Ipa Whisper Base
Apache-2.0
基于Whisper-base微调的多语言语音识别模型,支持国际音标(IPA)输出
语音识别 支持多种语言
I
neurlang
599
6
Quantum STT
Apache-2.0
Quantum_STT 是一种先进的自动语音识别(ASR)和语音翻译模型,基于大规模弱监督训练,支持多种语言和任务。
语音识别 Transformers 支持多种语言
Q
sbapan41
100
1
Whisper Large V3 Turbo Gguf
MIT
Whisper large-v3-turbo 是基于 Whisper large-v3 的剪枝微调版本,解码层数从32减少到4,速度大幅提升但质量略有下降。
语音识别 支持多种语言
W
xkeyC
546
1
Canary 180m Flash
NVIDIA NeMo Canary Flash 是一个多语言多任务语音模型,支持英语、德语、法语和西班牙语的自动语音识别和翻译任务。
语音识别 支持多种语言
C
nvidia
15.17k
60
Canary 1b Flash
NVIDIA NeMo Canary Flash 是一个多语言多任务模型家族,在多个语音基准测试中实现了最先进的性能。支持四种语言的自动语音识别和翻译任务。
语音识别 支持多种语言
C
nvidia
125.22k
186
Whisper Large V3.w4a16
Apache-2.0
这是openai/whisper-large-v3的量化版本,采用INT4权重量化和FP16激活量化,适用于vLLM推理。
语音识别 Transformers 英语
W
nm-testing
20
1
Owls 4B 180K
OWLS是一套Whisper风格的模型,旨在帮助研究人员理解语音模型的扩展特性,支持多语言语音识别和翻译。
语音识别 其他
O
espnet
40
5
Faster Whisper Large V3 Turbo Int8 Ct2
MIT
这是OpenAI Whisper-large-v3-turbo模型的CTranslate2转换版本,采用INT8量化技术,主要用于高效语音识别任务。
语音识别 支持多种语言
F
Zoont
123
4
Mahadhwani Pretrained Conformer
MIT
基于自监督学习的预训练Conformer编码器模型,支持印度22种预定语言的自动语音识别任务。
语音识别
M
ai4bharat
349
1
Whisper Large V3 Distil Multi4 V0.2
MIT
这是一个多语言蒸馏版的Whisper模型,具有2个解码器层,支持4种欧洲语言:英语、法语、西班牙语和德语。
语音识别 Transformers 支持多种语言
W
bofenghuang
70
1
Whisper Large V3 Distil Multi7 V0.2
MIT
一个多语言蒸馏版Whisper模型,支持7种欧洲语言的自动语音识别,具有语码转换能力
语音识别 Transformers 支持多种语言
W
bofenghuang
119
1
Voice Clone Large Finetune Final
Apache-2.0
该模型是基于openai/whisper-large-v3微调的语音克隆模型,主要用于语音识别任务,在评估集上词错误率为15.3572。
语音识别 Transformers
V
neuronbit
37
2
Whisper Large V3 Turbo
Apache-2.0
Whisper large-v3-turbo是OpenAI Whisper large-v3的蒸馏版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
语音识别 支持多种语言
W
deepdml
883
6
Faster Whisper Large V3 Turbo Ct2
MIT
这是将Whisper large-v3 turbo模型转换为CTranslate2格式的版本,用于高效的自动语音识别任务。
语音识别 支持多种语言
F
deepdml
254.96k
128
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
语音识别 Transformers 支持多种语言
W
openai
4.0M
2,317
Whisperfile
Apache-2.0
Whisper是一个基于Transformer的编码器-解码器模型,用于语音识别和翻译任务,支持多语言处理。
语音识别
W
cjpais
353
9
Whisper Large V3 Gguf
Apache-2.0
Whisper 是一个多语言自动语音识别(ASR)系统,支持多种语言的语音转文本任务。
语音识别 支持多种语言
W
vonjack
931
14
Whisper Small Uz En Ru Lang Id
Apache-2.0
基于Whisper-small微调的多语言语音分类模型,支持乌兹别克语、英语和俄语的语音识别与分类。
音频分类 Transformers 支持多种语言
W
fitlemon
17
1
Owsm Ctc V3.1 1B
OWSM-CTC是一个基于分层多任务自条件CTC的纯编码器语音基础模型,支持多语言语音识别、语音翻译和语言识别。
语音识别 其他
O
espnet
116
13
Whisper Large V3 Japanese 4k Steps Ct2
MIT
这是OpenAI Whisper large-v3模型的CTranslate2转换版本,专门针对日语进行了4000步的额外训练,支持多种语言的语音识别。
语音识别 支持多种语言
W
JhonVanced
54
4
Faster Whisper Large V3 Ja
MIT
基于OpenAI Whisper large-v3的日语优化版本,支持多语言语音识别
语音识别 支持多种语言
F
JhonVanced
46
3
Canary 1b
Canary-1B是NVIDIA NeMo开发的多语言多任务模型,支持英语、德语、法语和西班牙语的自动语音识别和语音翻译任务。
语音识别 支持多种语言
C
nvidia
7,734
421
Whisper Large V3 Ft Cv16 Mn
Apache-2.0
基于OpenAI Whisper Large V3模型在Common Voice 16.0数据集上微调的语音识别模型
语音识别 Transformers
W
sanchit-gandhi
34
1
Multilingual Distilwhisper 28k
MIT
基于whisper-small模型改进的多语言自动语音识别模型,通过CLSR模块和知识蒸馏提升目标语言性能
语音识别 Transformers 其他
M
naver
47
13
Faster Whisper Tiny
MIT
基于OpenAI Whisper微型模型的CTranslate2转换版本,用于高效语音识别
语音识别 支持多种语言
F
Systran
875.91k
10
Faster Whisper Base
MIT
这是OpenAI Whisper基础模型的CTranslate2转换版本,用于高效语音识别任务。
语音识别 支持多种语言
F
Systran
1.1M
13
Faster Whisper Medium
MIT
这是OpenAI Whisper中等模型的CTranslate2转换版本,用于高效语音识别任务。
语音识别 支持多种语言
F
Systran
155.87k
29
Faster Whisper Large V3
MIT
Whisper large-v3是OpenAI开发的大规模多语言自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
语音识别 支持多种语言
F
Systran
713.48k
376
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别 支持多种语言
W
openai
4.6M
4,321
Lang Id Voxlingua107 Ecapa
Apache-2.0
基于VoxLingua107数据集训练的ECAPA-TDNN架构口语识别模型,支持107种语言分类
音频分类 支持多种语言
L
apenasissso
19
0
Mms 1b Fl102
MMS-1B-FL102是Facebook大规模多语言语音项目的一部分,是一个支持102种语言的自动语音识别模型,基于10亿参数的Wav2Vec2架构,通过适配器技术实现多语言转录。
语音识别 Transformers 支持多种语言
M
facebook
6,360
26
Mms 1b All
Facebook大规模多语言语音项目的一部分,支持1162种语言的自动语音识别
语音识别 Transformers 支持多种语言
M
facebook
108.10k
140
Faster Whisper Large V1
MIT
这是OpenAI Whisper large-v1模型的CTranslate2转换版本,用于高效语音识别任务
语音识别 支持多种语言
F
guillaumekln
237
4
Faster Whisper Large V2
MIT
这是OpenAI Whisper large-v2模型的CTranslate2转换版本,用于高效语音识别
语音识别 支持多种语言
F
guillaumekln
161.19k
199
Faster Whisper Medium
MIT
本项目将openai/whisper-medium模型转换为CTranslate2模型格式,可用于高效语音识别。
语音识别 支持多种语言
F
guillaumekln
15.17k
33
Faster Whisper Small
MIT
基于Transformer架构的自动语音识别(ASR)模型,支持多语言转录
语音识别 支持多种语言
F
guillaumekln
4,599
15
Faster Whisper Base
MIT
Whisper基础模型是OpenAI开发的自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
语音识别 支持多种语言
F
guillaumekln
8,493
10
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase