Wav2vec2-ksponspeech Open-source Korean Speech Recognition Model - Accurately Identify Korean Speech Content

Home

Wav2vec2 Ksponspeech

Developed by Taeham

Korean speech recognition model fine-tuned on the Ksponspeech dataset, optimized based on Wav2vec2-large-xlsr-53

Speech Recognition

Transformers

Open Source License:Apache-2.0 #Korean speech recognition #Large model fine-tuning #Low-resource optimization

Downloads 111

Release Time : 6/11/2022

Model Overview

This model is an automatic speech recognition (ASR) model optimized for Korean, specifically designed for Korean speech-to-text tasks, achieving a word error rate (WER) of 0.373 on third-party test sets

Model Features

Korean optimization

Fine-tuned specifically for Korean characteristics on the Ksponspeech dataset

High performance

Achieves a word error rate (WER) of 0.373 on third-party test sets

Clear improvement areas

Identified specific optimization directions such as digit/character normalization and pronunciation correction

Model Capabilities

Korean speech recognition

High-accuracy speech-to-text conversion

Handling non-standard Korean pronunciation

Use Cases

Speech transcription

Korean meeting minutes

Automatically convert Korean meeting recordings into text transcripts

Word error rate 0.373

Media subtitle generation

Automatically generate subtitles for Korean video content

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Wav2vec2 Ksponspeech

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 wav2vec2-ksponspeech

🚀 Quick Start

✨ Features

📚 Documentation

Hardward Specification

Training hyperparameters

Framework versions

📄 License