W

Wav2vec2 Large Xlsr 53 Toy Train Data Masked Audio 10ms

scasuttによって開発
facebook/wav2vec2-large-xlsr-53を基に微調整した音声認識モデルで、10ms音声マスキング訓練データで最適化されています
ダウンロード数 22
リリース時間 : 3/28/2022

モデル概要

このモデルは音声認識タスク向けに最適化されたバージョンで、微調整により特定条件下での認識精度が向上しています

モデル特徴

10ms音声マスキング訓練
10ms音声マスキングという特殊な訓練方法を使用しており、短時間音声特徴の認識能力が向上している可能性があります
微調整最適化
事前訓練モデルを基に微調整を行い、特定データセットでより良い性能を発揮しています

モデル能力

音声認識
音声特徴抽出

使用事例

音声から文字へ
音声文字起こし
音声内容を文字に変換します
単語誤り率0.4929
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase