wav2vec2-large-xlsr-53-kalmykオープンソースモデル - カルムキー語の音声を高精度にテキストに変換することをサポート

Wav2vec2 Large Xlsr 53 Kalmyk

tugstugiによって開発

これはWav2Vec2アーキテクチャに基づくカルムイク語自動音声認識モデルで、事前学習とファインチューニングを経ており、カルムイク語音声からテキストへの変換タスクをサポートします。

ダウンロード数 79

リリース時間 : 3/2/2022

モデル概要

このモデルは最初に500時間のカルムイクテレビ録音と1000時間のモンゴル語音声データセットで事前学習され、その後300時間のカルムイク合成音声データセットでファインチューニングされ、カルムイク語音声認識に適しています。

多段階トレーニング

まず大量のカルムイク語とモンゴル語データで事前学習し、その後合成音声データでファインチューニングすることで、認識効果を向上させます。

合成データ拡張

300時間のカルムイク合成音声データを使用してファインチューニングを行い、モデルのカルムイク語認識能力を強化します。

言語間転移

モンゴル語データを利用した事前学習は、関連言語の認識効果向上に役立つ可能性があります。

カルムイク語音声認識

音声からテキストへの変換

音声文字起こし

カルムイクテレビ番組の文字起こし

カルムイクテレビ番組の内容を自動的にテキストに変換

プライベートテストセットでの単語誤り率(WER)は50%

明瞭な音声認識

発音が明瞭なカルムイク語を認識

単語誤り率は50%より大幅に低くなるはず

プロパティ	詳細
モデルタイプ	Wav2Vec2
学習データ	500時間分のカルムィク語のテレビ録音、1000時間分のモンゴル語の音声認識データセット、300時間分のカルムィク語の合成音声認識データセット