2

20220413 210552

lilitketによって開発
このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデルです
ダウンロード数 18
リリース時間 : 4/13/2022

モデル概要

これはwav2vec2-xls-r-300mアーキテクチャに基づき、common_voiceデータセットでトレーニングされた音声認識用のファインチューニングモデルです。

モデル特徴

効率的なファインチューニング
強力なwav2vec2-xls-r-300mベースモデルを基にファインチューニング
低い単語誤り率
評価データセットで1.0006の単語誤り率(WER)を達成
最適化されたトレーニング
線形学習率スケジューリングと2000ステップのウォームアップトレーニングを採用

モデル能力

音声からテキストへ
自動音声認識

使用事例

音声文字起こし
音声から文字へ
音声内容を文字記録に変換
単語誤り率1.0006
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase