多语言语音识别

# 多语言语音识别

Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型，通过68万小时标注数据训练，具有强大的泛化能力。

Safetensors 支持多种语言

Whisper Large V3 Turbo

Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型，在超过500万小时的标记数据上训练，具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本，解码层从32层减少到4层，速度大幅提升但质量略有下降。

Transformers 支持多种语言

Whisper Large V3

Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型，支持多种语言

Safetensors 支持多种语言

Ipa Whisper Base

基于Whisper-base微调的多语言语音识别模型，支持国际音标(IPA)输出

语音识别支持多种语言

Quantum_STT 是一种先进的自动语音识别（ASR）和语音翻译模型，基于大规模弱监督训练，支持多种语言和任务。

Transformers 支持多种语言

Whisper Large V3 Turbo Gguf

Whisper large-v3-turbo 是基于 Whisper large-v3 的剪枝微调版本，解码层数从32减少到4，速度大幅提升但质量略有下降。

语音识别支持多种语言

Canary 180m Flash

NVIDIA NeMo Canary Flash 是一个多语言多任务语音模型，支持英语、德语、法语和西班牙语的自动语音识别和翻译任务。

语音识别支持多种语言

Canary 1b Flash

NVIDIA NeMo Canary Flash 是一个多语言多任务模型家族，在多个语音基准测试中实现了最先进的性能。支持四种语言的自动语音识别和翻译任务。

语音识别支持多种语言

Whisper Large V3.w4a16

这是openai/whisper-large-v3的量化版本，采用INT4权重量化和FP16激活量化，适用于vLLM推理。

Transformers 英语

OWLS是一套Whisper风格的模型，旨在帮助研究人员理解语音模型的扩展特性，支持多语言语音识别和翻译。

语音识别其他

Faster Whisper Large V3 Turbo Int8 Ct2

这是OpenAI Whisper-large-v3-turbo模型的CTranslate2转换版本，采用INT8量化技术，主要用于高效语音识别任务。

语音识别支持多种语言

Mahadhwani Pretrained Conformer

基于自监督学习的预训练Conformer编码器模型，支持印度22种预定语言的自动语音识别任务。

Whisper Large V3 Distil Multi4 V0.2

这是一个多语言蒸馏版的Whisper模型，具有2个解码器层，支持4种欧洲语言：英语、法语、西班牙语和德语。

Transformers 支持多种语言

Whisper Large V3 Distil Multi7 V0.2

一个多语言蒸馏版Whisper模型，支持7种欧洲语言的自动语音识别，具有语码转换能力

Transformers 支持多种语言

Voice Clone Large Finetune Final

该模型是基于openai/whisper-large-v3微调的语音克隆模型，主要用于语音识别任务，在评估集上词错误率为15.3572。

Whisper Large V3 Turbo

Whisper large-v3-turbo是OpenAI Whisper large-v3的蒸馏版本，解码层从32层减少到4层，速度大幅提升但质量略有下降。

语音识别支持多种语言

Faster Whisper Large V3 Turbo Ct2

这是将Whisper large-v3 turbo模型转换为CTranslate2格式的版本，用于高效的自动语音识别任务。

语音识别支持多种语言

Whisper Large V3 Turbo

Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型，经过超过500万小时标记数据的训练，在零样本设置下展现出强大的泛化能力。

Transformers 支持多种语言

Whisper是一个基于Transformer的编码器-解码器模型，用于语音识别和翻译任务，支持多语言处理。

Whisper Large V3 Gguf

Whisper 是一个多语言自动语音识别（ASR）系统，支持多种语言的语音转文本任务。

语音识别支持多种语言

Whisper Small Uz En Ru Lang Id

基于Whisper-small微调的多语言语音分类模型，支持乌兹别克语、英语和俄语的语音识别与分类。

Transformers 支持多种语言

Owsm Ctc V3.1 1B

OWSM-CTC是一个基于分层多任务自条件CTC的纯编码器语音基础模型，支持多语言语音识别、语音翻译和语言识别。

语音识别其他

Whisper Large V3 Japanese 4k Steps Ct2

这是OpenAI Whisper large-v3模型的CTranslate2转换版本，专门针对日语进行了4000步的额外训练，支持多种语言的语音识别。

语音识别支持多种语言

Faster Whisper Large V3 Ja

基于OpenAI Whisper large-v3的日语优化版本，支持多语言语音识别

语音识别支持多种语言

Canary-1B是NVIDIA NeMo开发的多语言多任务模型，支持英语、德语、法语和西班牙语的自动语音识别和语音翻译任务。

语音识别支持多种语言

Whisper Large V3 Ft Cv16 Mn

基于OpenAI Whisper Large V3模型在Common Voice 16.0数据集上微调的语音识别模型

Multilingual Distilwhisper 28k

基于whisper-small模型改进的多语言自动语音识别模型，通过CLSR模块和知识蒸馏提升目标语言性能

Transformers 其他

Faster Whisper Tiny

基于OpenAI Whisper微型模型的CTranslate2转换版本，用于高效语音识别

语音识别支持多种语言

Faster Whisper Base

这是OpenAI Whisper基础模型的CTranslate2转换版本，用于高效语音识别任务。

语音识别支持多种语言

Faster Whisper Medium

这是OpenAI Whisper中等模型的CTranslate2转换版本，用于高效语音识别任务。

语音识别支持多种语言

Faster Whisper Large V3

Whisper large-v3是OpenAI开发的大规模多语言自动语音识别(ASR)模型，支持多种语言的语音转文字任务。

语音识别支持多种语言

Whisper Large V3

Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型，在超过500万小时的标注数据上训练，具有强大的跨数据集和跨领域泛化能力。

语音识别支持多种语言

Lang Id Voxlingua107 Ecapa

基于VoxLingua107数据集训练的ECAPA-TDNN架构口语识别模型，支持107种语言分类

音频分类支持多种语言

MMS-1B-FL102是Facebook大规模多语言语音项目的一部分，是一个支持102种语言的自动语音识别模型，基于10亿参数的Wav2Vec2架构，通过适配器技术实现多语言转录。

Transformers 支持多种语言

Facebook大规模多语言语音项目的一部分，支持1162种语言的自动语音识别

Transformers 支持多种语言

Faster Whisper Large V1

这是OpenAI Whisper large-v1模型的CTranslate2转换版本，用于高效语音识别任务

语音识别支持多种语言

Faster Whisper Large V2

这是OpenAI Whisper large-v2模型的CTranslate2转换版本，用于高效语音识别

语音识别支持多种语言

Faster Whisper Medium

本项目将openai/whisper-medium模型转换为CTranslate2模型格式，可用于高效语音识别。

语音识别支持多种语言

Faster Whisper Small

基于Transformer架构的自动语音识别(ASR)模型，支持多语言转录

语音识别支持多种语言

Faster Whisper Base

Whisper基础模型是OpenAI开发的自动语音识别(ASR)模型，支持多种语言的语音转文字任务。

语音识别支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase