W

Wav2vec2 Base Timit Demo Colab

murdockthedudeによって開発
facebook/wav2vec2-baseをベースにファインチューニングした音声認識モデルで、TIMITデータセットで訓練され、単語誤り率(WER)は0.3518
ダウンロード数 20
リリース時間 : 5/10/2022

モデル概要

これは英語の音声認識用のモデルで、wav2vec2アーキテクチャをベースにファインチューニングされており、英語音声をテキストに変換するタスクに適しています。

モデル特徴

効率的なファインチューニング
wav2vec2-baseモデルをTIMITデータセットでファインチューニングし、元モデルの強力な特徴抽出能力を保持
低い単語誤り率
評価セットで0.3518の単語誤り率(WER)を達成し、良好な性能を示す
訓練の最適化
線形学習率スケジューリングとウォームアップ戦略を採用し、安定した訓練プロセスを実現

モデル能力

英語音声認識
音声からテキストへの変換

使用事例

音声文字起こし
会議議事録
英語の会議録音を自動的に文字記録に変換
約65%の精度(WER 0.3518に基づく推定)
音声メモ
英語の音声メモを検索可能なテキストに変換
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase