W

Wav2vec2 Base Vietnamese 250h

由 nguyenvulebinh 开发
基于wav2vec 2.0架构的越南语自动语音识别模型,在13,000小时未标注音频和250小时标注数据上训练
下载量 6,868
发布时间 : 3/2/2022

模型简介

该模型是一个端到端的越南语语音识别系统,采用Facebook的wav2vec 2.0架构,通过CTC算法进行微调,支持越南语语音转文本任务。

模型特点

大规模预训练
在13,000小时的越南语YouTube音频上进行预训练
高效微调
使用250小时的标注语音数据进行微调,优化语音识别性能
支持语言模型集成
可配合4-gram语言模型使用,显著降低词错误率(WER)
端到端解决方案
简化传统ASR流程,无需单独的声学模型和语言模型组件

模型能力

越南语语音识别
音频转文本
支持16kHz采样率音频处理

使用案例

语音转录
会议记录
将越南语会议录音转换为文字记录
在VIVOS测试集上达到6.15%的词错误率
语音助手
为越南语语音助手提供语音识别能力
在Common Voice越南语测试集上达到11.52%的词错误率
教育应用
语言学习
帮助学习者练习越南语发音和听力
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase