Whisper Small
Apache-2.0
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
语音识别
Safetensors 支持多种语言
W
unsloth
50
1
Whisper Large V3 Turbo
MIT
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
语音识别
Transformers 支持多种语言

W
unsloth
94
1
Whisper Large V3
Apache-2.0
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,支持多种语言
语音识别
Safetensors 支持多种语言
W
unsloth
4,002
1
Ipa Whisper Base
Apache-2.0
基于Whisper-base微调的多语言语音识别模型,支持国际音标(IPA)输出
语音识别 支持多种语言
I
neurlang
599
6
Quantum STT
Apache-2.0
Quantum_STT 是一种先进的自动语音识别(ASR)和语音翻译模型,基于大规模弱监督训练,支持多种语言和任务。
语音识别
Transformers 支持多种语言

Q
sbapan41
100
1
Whisper Large V3 Turbo Gguf
MIT
Whisper large-v3-turbo 是基于 Whisper large-v3 的剪枝微调版本,解码层数从32减少到4,速度大幅提升但质量略有下降。
语音识别 支持多种语言
W
xkeyC
546
1
Canary 180m Flash
NVIDIA NeMo Canary Flash 是一个多语言多任务语音模型,支持英语、德语、法语和西班牙语的自动语音识别和翻译任务。
语音识别 支持多种语言
C
nvidia
15.17k
60
Canary 1b Flash
NVIDIA NeMo Canary Flash 是一个多语言多任务模型家族,在多个语音基准测试中实现了最先进的性能。支持四种语言的自动语音识别和翻译任务。
语音识别 支持多种语言
C
nvidia
125.22k
186
Whisper Large V3.w4a16
Apache-2.0
这是openai/whisper-large-v3的量化版本,采用INT4权重量化和FP16激活量化,适用于vLLM推理。
语音识别
Transformers 英语

W
nm-testing
20
1
Owls 4B 180K
OWLS是一套Whisper风格的模型,旨在帮助研究人员理解语音模型的扩展特性,支持多语言语音识别和翻译。
语音识别 其他
O
espnet
40
5
Faster Whisper Large V3 Turbo Int8 Ct2
MIT
这是OpenAI Whisper-large-v3-turbo模型的CTranslate2转换版本,采用INT8量化技术,主要用于高效语音识别任务。
语音识别 支持多种语言
F
Zoont
123
4
Mahadhwani Pretrained Conformer
MIT
基于自监督学习的预训练Conformer编码器模型,支持印度22种预定语言的自动语音识别任务。
语音识别
M
ai4bharat
349
1
Whisper Large V3 Distil Multi4 V0.2
MIT
这是一个多语言蒸馏版的Whisper模型,具有2个解码器层,支持4种欧洲语言:英语、法语、西班牙语和德语。
语音识别
Transformers 支持多种语言

W
bofenghuang
70
1
Whisper Large V3 Distil Multi7 V0.2
MIT
一个多语言蒸馏版Whisper模型,支持7种欧洲语言的自动语音识别,具有语码转换能力
语音识别
Transformers 支持多种语言

W
bofenghuang
119
1
Voice Clone Large Finetune Final
Apache-2.0
该模型是基于openai/whisper-large-v3微调的语音克隆模型,主要用于语音识别任务,在评估集上词错误率为15.3572。
语音识别
Transformers

V
neuronbit
37
2
Whisper Large V3 Turbo
Apache-2.0
Whisper large-v3-turbo是OpenAI Whisper large-v3的蒸馏版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
语音识别 支持多种语言
W
deepdml
883
6
Faster Whisper Large V3 Turbo Ct2
MIT
这是将Whisper large-v3 turbo模型转换为CTranslate2格式的版本,用于高效的自动语音识别任务。
语音识别 支持多种语言
F
deepdml
254.96k
128
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
语音识别
Transformers 支持多种语言

W
openai
4.0M
2,317
Whisperfile
Apache-2.0
Whisper是一个基于Transformer的编码器-解码器模型,用于语音识别和翻译任务,支持多语言处理。
语音识别
W
cjpais
353
9
Whisper Large V3 Gguf
Apache-2.0
Whisper 是一个多语言自动语音识别(ASR)系统,支持多种语言的语音转文本任务。
语音识别 支持多种语言
W
vonjack
931
14
Whisper Small Uz En Ru Lang Id
Apache-2.0
基于Whisper-small微调的多语言语音分类模型,支持乌兹别克语、英语和俄语的语音识别与分类。
音频分类
Transformers 支持多种语言

W
fitlemon
17
1
Owsm Ctc V3.1 1B
OWSM-CTC是一个基于分层多任务自条件CTC的纯编码器语音基础模型,支持多语言语音识别、语音翻译和语言识别。
语音识别 其他
O
espnet
116
13
Whisper Large V3 Japanese 4k Steps Ct2
MIT
这是OpenAI Whisper large-v3模型的CTranslate2转换版本,专门针对日语进行了4000步的额外训练,支持多种语言的语音识别。
语音识别 支持多种语言
W
JhonVanced
54
4
Faster Whisper Large V3 Ja
MIT
基于OpenAI Whisper large-v3的日语优化版本,支持多语言语音识别
语音识别 支持多种语言
F
JhonVanced
46
3
Canary 1b
Canary-1B是NVIDIA NeMo开发的多语言多任务模型,支持英语、德语、法语和西班牙语的自动语音识别和语音翻译任务。
语音识别 支持多种语言
C
nvidia
7,734
421
Whisper Large V3 Ft Cv16 Mn
Apache-2.0
基于OpenAI Whisper Large V3模型在Common Voice 16.0数据集上微调的语音识别模型
语音识别
Transformers

W
sanchit-gandhi
34
1
Multilingual Distilwhisper 28k
MIT
基于whisper-small模型改进的多语言自动语音识别模型,通过CLSR模块和知识蒸馏提升目标语言性能
语音识别
Transformers 其他

M
naver
47
13
Faster Whisper Tiny
MIT
基于OpenAI Whisper微型模型的CTranslate2转换版本,用于高效语音识别
语音识别 支持多种语言
F
Systran
875.91k
10
Faster Whisper Base
MIT
这是OpenAI Whisper基础模型的CTranslate2转换版本,用于高效语音识别任务。
语音识别 支持多种语言
F
Systran
1.1M
13
Faster Whisper Medium
MIT
这是OpenAI Whisper中等模型的CTranslate2转换版本,用于高效语音识别任务。
语音识别 支持多种语言
F
Systran
155.87k
29
Faster Whisper Large V3
MIT
Whisper large-v3是OpenAI开发的大规模多语言自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
语音识别 支持多种语言
F
Systran
713.48k
376
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别 支持多种语言
W
openai
4.6M
4,321
Lang Id Voxlingua107 Ecapa
Apache-2.0
基于VoxLingua107数据集训练的ECAPA-TDNN架构口语识别模型,支持107种语言分类
音频分类 支持多种语言
L
apenasissso
19
0
Mms 1b Fl102
MMS-1B-FL102是Facebook大规模多语言语音项目的一部分,是一个支持102种语言的自动语音识别模型,基于10亿参数的Wav2Vec2架构,通过适配器技术实现多语言转录。
语音识别
Transformers 支持多种语言

M
facebook
6,360
26
Mms 1b All
Facebook大规模多语言语音项目的一部分,支持1162种语言的自动语音识别
语音识别
Transformers 支持多种语言

M
facebook
108.10k
140
Faster Whisper Large V1
MIT
这是OpenAI Whisper large-v1模型的CTranslate2转换版本,用于高效语音识别任务
语音识别 支持多种语言
F
guillaumekln
237
4
Faster Whisper Large V2
MIT
这是OpenAI Whisper large-v2模型的CTranslate2转换版本,用于高效语音识别
语音识别 支持多种语言
F
guillaumekln
161.19k
199
Faster Whisper Medium
MIT
本项目将openai/whisper-medium模型转换为CTranslate2模型格式,可用于高效语音识别。
语音识别 支持多种语言
F
guillaumekln
15.17k
33
Faster Whisper Small
MIT
基于Transformer架构的自动语音识别(ASR)模型,支持多语言转录
语音识别 支持多种语言
F
guillaumekln
4,599
15
Faster Whisper Base
MIT
Whisper基础模型是OpenAI开发的自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
语音识别 支持多种语言
F
guillaumekln
8,493
10
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98