W

Wav2vec2 Large Xls R 300m Kk With LM

DrishtiSharmaによって開発
このモデルは、facebook/wav2vec2-xls-r-300mをベースに、カザフ語(KK)のデータセットで微調整された自動音声認識(ASR)モデルで、言語モデル(LM)の強化をサポートしています。
ダウンロード数 22
リリース時間 : 3/2/2022

モデル概要

これはカザフ語に最適化された自動音声認識モデルで、Common Voice 8.0データセットで訓練され、カザフ語の音声をテキストに変換するのに使用できます。

モデル特徴

言語モデルの強化
モデルは言語モデル(LM)を組み合わせて後処理を行い、認識精度を向上させます。
複数データセットでの評価
Common Voiceやロバスト音声イベントなどの複数のデータセットで評価されています。
大規模事前学習
3億パラメータのwav2vec2-XLS-Rモデルをベースに微調整され、強力な音声特徴抽出能力を持っています。

モデル能力

カザフ語音声認識
音声をテキストに変換
言語モデルによる後処理をサポート

使用事例

音声文字起こし
カザフ語音声文字起こし
カザフ語の音声内容をテキストに変換します。
Common Voice 8.0テストセットでのWERは41.7%です。
音声アシスタント
カザフ語音声コマンド認識
カザフ語の音声アシスタントや制御システムの音声コマンド認識に使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase