O

Owsm Ctc V3.1 1B

由 espnet 开发
OWSM-CTC是一个基于分层多任务自条件CTC的纯编码器语音基础模型,支持多语言语音识别、语音翻译和语言识别。
下载量 116
发布时间 : 2/23/2024

模型简介

该模型在180k小时的公开音频数据上训练,遵循开放Whisper风格语音模型(OWSM)项目的设计,支持多语言语音识别、任意到任意语音翻译和语言识别。

模型特点

多任务学习
支持语音识别、语音翻译和语言识别三种任务
大规模训练
在180k小时的公开音频数据上训练
高效推理
提供批量推理和长音频处理能力
CTC强制对齐
支持使用ctc-segmentation进行高效的时间戳对齐

模型能力

多语言语音识别
任意到任意语音翻译
语言识别
批量音频处理
长音频分割处理
CTC时间戳对齐

使用案例

语音转写
会议记录转录
将会议录音转换为文字记录
高准确率的转录文本
语音翻译
实时语音翻译
将一种语言的语音实时翻译为另一种语言的文本
流畅的跨语言沟通
音频分析
语言识别
识别音频中的语言类型
准确的语言分类
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase