W

Wav2vec2 Base Toy Train Data Slow 10pct

scasuttによって開発
facebook/wav2vec2-baseモデルを未知のデータセットでファインチューニングした音声認識モデル、単語誤り率(WER)は0.7175
ダウンロード数 22
リリース時間 : 3/27/2022

モデル概要

このモデルはwav2vec2-baseのファインチューン版で、主に音声認識タスクに使用されます。評価データセットで一定の認識能力を示していますが、改善の余地があります。

モデル特徴

wav2vec2-baseベースのファインチューニング
ベースのwav2vec2モデルをファインチューニングし、特定の音声認識タスクに適応させています
線形学習率スケジューリング
線形学習率スケジューリング戦略を採用し、1000ステップのウォームアップ期間を設けています
勾配蓄積トレーニング
勾配蓄積(ステップ数=2)を使用して有効バッチサイズを増加させています

モデル能力

音声からテキストへの変換
自動音声認識

使用事例

音声文字起こし
会議議事録の文字起こし
会議の録音を文字記録に変換します
単語誤り率0.7175
音声コマンド認識
簡単な音声コマンドを認識します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase