W

Wav2vec2 Large Xlsr 53 Kalmyk

tugstugiによって開発
これはWav2Vec2アーキテクチャに基づくカルムイク語自動音声認識モデルで、事前学習とファインチューニングを経ており、カルムイク語音声からテキストへの変換タスクをサポートします。
ダウンロード数 79
リリース時間 : 3/2/2022

モデル概要

このモデルは最初に500時間のカルムイクテレビ録音と1000時間のモンゴル語音声データセットで事前学習され、その後300時間のカルムイク合成音声データセットでファインチューニングされ、カルムイク語音声認識に適しています。

モデル特徴

多段階トレーニング
まず大量のカルムイク語とモンゴル語データで事前学習し、その後合成音声データでファインチューニングすることで、認識効果を向上させます。
合成データ拡張
300時間のカルムイク合成音声データを使用してファインチューニングを行い、モデルのカルムイク語認識能力を強化します。
言語間転移
モンゴル語データを利用した事前学習は、関連言語の認識効果向上に役立つ可能性があります。

モデル能力

カルムイク語音声認識
音声からテキストへの変換

使用事例

音声文字起こし
カルムイクテレビ番組の文字起こし
カルムイクテレビ番組の内容を自動的にテキストに変換
プライベートテストセットでの単語誤り率(WER)は50%
明瞭な音声認識
発音が明瞭なカルムイク語を認識
単語誤り率は50%より大幅に低くなるはず
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase