W

Wav2vec2 Xls R 300m Kk N2

DrishtiSharmaによって開発
これはfacebook/wav2vec2-xls-r-300mモデルをカザフ語(KK)音声データセットでファインチューニングした自動音声認識(ASR)モデルです。
ダウンロード数 15
リリース時間 : 3/2/2022

モデル概要

このモデルはカザフ語の音声認識タスクに特化しており、Common Voice 8データセットでファインチューニングされ、カザフ語の音声をテキストに変換することができます。

モデル特徴

カザフ語最適化
カザフ語の音声認識に特化してファインチューニングと最適化が行われました
大規模事前学習モデルに基づく
facebookのwav2vec2-xls-r-300mモデルを基にファインチューニングされ、その強力な音声特徴抽出能力を引き継いでいます
中規模モデル
3億パラメータの規模で、精度と計算効率のバランスが良いです

モデル能力

カザフ語音声認識
音声からテキストへの変換
自動音声認識

使用事例

音声文字起こし
カザフ語音声文字起こし
カザフ語の音声内容をテキスト形式に変換する
Common Voice 8テストセットでのWERは0.4355です
音声アシスタント
カザフ語音声指令認識
カザフ語の音声アシスタントでの音声指令認識に使用する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase