W

Wav2vec2 Final 1 Lm 2

chrisvinsenによって開発
facebook/wav2vec2-baseをファインチューニングした音声認識モデル、単語誤り率(WER)0.283、3-gram使用時単語誤り率0.126
ダウンロード数 15
リリース時間 : 6/2/2022

モデル概要

これは音声認識用のファインチューニングモデルで、wav2vec2アーキテクチャに基づき、特定のデータセットでトレーニングされています

モデル特徴

低単語誤り率
評価データセットでの単語誤り率は0.4499、3-gram使用時は0.126まで低下
wav2vec2アーキテクチャベース
facebookのwav2vec2-baseをベースモデルとしてファインチューニング
最適化トレーニング
60エポックのトレーニングを実施、線形学習率スケジューリングとウォームアップ戦略を採用

モデル能力

音声認識
音声からテキストへの変換

使用事例

音声文字起こし
会議議事録の文字起こし
会議録音を文字記録に変換
単語誤り率0.283
音声コマンド認識
音声コマンドの認識と理解
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase