2

20220415 210530

lilitketによって開発
このモデルは、facebook/wav2vec2-xls-r-2bをcommon_voiceデータセットでファインチューニングした音声認識モデルです
ダウンロード数 20
リリース時間 : 4/15/2022

モデル概要

これは音声認識タスク用のファインチューニングモデルで、wav2vec2-xls-r-2bアーキテクチャに基づき、common_voiceデータセットでトレーニングされました

モデル特徴

大規模事前学習モデルのファインチューニング
20億パラメータのwav2vec2-xls-r-2bモデルを基にファインチューニング
比較的低い単語誤り率
評価データセットで0.3881の単語誤り率を達成
効率的なトレーニング
勾配蓄積などの技術でトレーニングプロセスを最適化

モデル能力

音声からテキストへの変換
自動音声認識

使用事例

音声文字起こし
音声から文字への変換サービス
音声コンテンツを文字記録に変換
単語誤り率0.3881
支援技術
リアルタイム字幕生成
動画やライブコンテンツのためのリアルタイム字幕生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase