W

Whisper Medium.en

由 openai 开发
Whisper是OpenAI开发的自动语音识别(ASR)模型,经过68万小时标注语音数据训练,具有强大的泛化能力。
下载量 36.92k
发布时间 : 9/26/2022

模型简介

Whisper是一个基于Transformer的编码器-解码器模型,专门用于英语语音识别任务。该模型在无需微调的情况下能适应多种数据集和领域。

模型特点

大规模训练数据
使用68万小时的标注语音数据进行训练,其中65%为英语数据
强大的泛化能力
无需微调即可适应多种数据集和领域
高精度转录
在LibriSpeech测试集上WER低至4.12%(clean)和7.43%(other)
长音频处理
支持通过分块算法处理任意长度的音频输入

模型能力

英语语音识别
音频转录
长音频处理

使用案例

语音转录
会议记录
将会议录音自动转录为文字记录
高准确率的转录文本
播客转录
将播客内容转换为可搜索的文本格式
辅助技术
听力辅助
为听力障碍者提供实时字幕
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase