wav2vec2-ksponspeechオープンソース韓国語音声認識モデル

Wav2vec2 Ksponspeech

Taehamによって開発

Ksponspeechデータセットでファインチューニングされた韓国語音声認識モデルで、Wav2vec2-large-xlsr-53を基に最適化

ダウンロード数 111

リリース時間 : 6/11/2022

モデル概要

このモデルは韓国語に最適化された自動音声認識(ASR)モデルで、韓国語音声からテキストへの変換タスクに特化しており、サードパーティのテストセットで0.373の単語誤り率(WER)を達成

韓国語最適化

韓国語の特性に特化してKsponspeechデータセットでファインチューニング

高性能

サードパーティのテストセットで0.373の単語誤り率(WER)を達成

改善余地の明確化

数字/文字の標準化、発音補正など具体的な最適化方向を特定

韓国語音声認識

高精度音声テキスト変換

非標準韓国語発音の処理

音声文字起こし

韓国語会議議事録

韓国語会議録音を自動的に文字記録に変換

単語誤り率0.373

メディア字幕生成

韓国語動画コンテンツに自動的に字幕を生成

このモデルは、Wav2vec2-large-xlsr-53 をNoneデータセットでファインチューニングしたバージョンです。
評価セットでは、以下の結果を達成しています。

WERを改善するための方法:

このモデルは、Ksponspeechデータセットを用いた韓国語のWav2vecモデルです。評価セットで特定のWERを達成しており、WER改善のためのいくつかの方法が提案されています。

Ksponspeechデータセットを用いた韓国語のWav2vecです。

このモデルは、以下の2つのデータセットで訓練されました。

訓練データ1 : https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-train (Ksponspeechの1 ~ 20000番目のデータ)
訓練データ2 : https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-train2 (Ksponspeechの20100 ~ 40100番目のデータ)
検証データ : https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-test (Ksponspeechの20000 ~ 20100番目のデータ)
第三者テストデータ : https://huggingface.co/datasets/Taeham/wav2vec2-ksponspeech-test (Ksponspeechの60000 ~ 20100番目のデータ)