W

Whisper Large V3

Developed by openai
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
Downloads 4.6M
Release Time : 11/7/2023

Model Overview

Whisper是一个基于Transformer的编码器-解码器模型,支持多种语言的语音识别和翻译任务。large-v3版本相比前代在多种语言上错误率降低10%-20%。

Model Features

大规模训练数据
在超过500万小时的标注音频数据上训练,包括100万小时弱标注数据和400万小时伪标注数据
多语言支持
支持98种语言的语音识别,包括多种低资源语言
零样本泛化能力
在未见过的数据集和领域上表现出强大的零样本泛化性能
改进的准确率
相比large-v2版本,在多种语言上错误率降低10%-20%
时间戳支持
可提供句子级和单词级的时间戳信息

Model Capabilities

语音转文本
多语言语音识别
语音翻译(到英语)
长音频处理
带时间戳的转录

Use Cases

语音转录
会议记录
将会议录音自动转录为文字记录
准确率高,支持多种语言和口音
播客转录
将播客内容转录为文字便于搜索和存档
支持长时间音频处理
语音翻译
实时翻译
将非英语语音实时翻译为英语文本
翻译质量高,延迟低
字幕生成
视频字幕
为视频内容自动生成字幕
支持时间戳对齐
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase