wav2vec2-ksponspeech开源韩语语音识别模型

Wav2vec2 Ksponspeech

由 Taeham 开发

基于Ksponspeech数据集微调的韩语语音识别模型，在Wav2vec2-large-xlsr-53基础上优化

下载量 111

发布时间 : 6/11/2022

模型简介

该模型是针对韩语优化的自动语音识别(ASR)模型，专门处理韩语语音转文本任务，在第三方测试集上取得0.373的词错误率(WER)

韩语优化

专门针对韩语特性在Ksponspeech数据集上微调

高性能

在第三方测试集上达到0.373的词错误率(WER)

改进空间明确

已识别数字/字符标准化、发音校正等具体优化方向

韩语语音识别

高准确率语音转文本

处理非标准韩语发音

语音转录

韩语会议记录

将韩语会议录音自动转为文字记录

词错误率0.373

媒体字幕生成

为韩语视频内容自动生成字幕

本模型是 Wav2vec2-large-xlsr-53 在无指定数据集上的微调版本。它在评估集上取得了如下结果，能够有效助力语音识别相关任务，提升识别的准确性和效率。

此模型可直接应用于韩语语音识别任务，通过加载预训练权重，结合相应的推理代码即可开展工作。

基于 Ksponspeech 数据集的韩语 Wav2vec 模型。

该模型使用以下两个数据集进行训练：

训练集 1：https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-train（Ksponspeech 中的第 1 至 20000 条数据）
训练集 2：https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-train2（Ksponspeech 中的第 20100 至 40100 条数据）
验证集：https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-test（Ksponspeech 中的第 20000 至 20100 条数据）
第三方测试集：https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-test（Ksponspeech 中的第 60000 至 20100 条数据）