wav2vec2-ksponspeech開源韓語語音識別模型

Wav2vec2 Ksponspeech

由Taeham開發

基於Ksponspeech數據集微調的韓語語音識別模型，在Wav2vec2-large-xlsr-53基礎上優化

下載量 111

發布時間 : 6/11/2022

模型概述

該模型是針對韓語優化的自動語音識別(ASR)模型，專門處理韓語語音轉文本任務，在第三方測試集上取得0.373的詞錯誤率(WER)

韓語優化

專門針對韓語特性在Ksponspeech數據集上微調

高性能

在第三方測試集上達到0.373的詞錯誤率(WER)

改進空間明確

已識別數字/字符標準化、發音校正等具體優化方向

韓語語音識別

高準確率語音轉文本

處理非標準韓語發音

語音轉錄

韓語會議記錄

將韓語會議錄音自動轉為文字記錄

詞錯誤率0.373

媒體字幕生成

為韓語視頻內容自動生成字幕

本模型是 Wav2vec2-large-xlsr-53 在無指定數據集上的微調版本。它在評估集上取得了如下結果，能夠有效助力語音識別相關任務，提升識別的準確性和效率。

此模型可直接應用於韓語語音識別任務，通過加載預訓練權重，結合相應的推理代碼即可開展工作。

基於 Ksponspeech 數據集的韓語 Wav2vec 模型。

該模型使用以下兩個數據集進行訓練：

訓練集 1：https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-train（Ksponspeech 中的第 1 至 20000 條數據）
訓練集 2：https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-train2（Ksponspeech 中的第 20100 至 40100 條數據）
驗證集：https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-test（Ksponspeech 中的第 20000 至 20100 條數據）
第三方測試集：https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-test（Ksponspeech 中的第 60000 至 20100 條數據）