W

Wav2vec2 Base Timit Demo Colab57

hassnainによって開発
facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、TIMITデータセットでトレーニングされ、単語誤り率(WER)は0.4593です。
ダウンロード数 16
リリース時間 : 5/1/2022

モデル概要

これは英語の音声認識のための自動音声認識(ASR)モデルで、wav2vec2アーキテクチャを基にファインチューニングされています。

モデル特徴

低単語誤り率
評価セットで0.4593の単語誤り率(WER)を達成
wav2vec2アーキテクチャベース
facebook/wav2vec2-baseをベースモデルとしてファインチューニング
エンドツーエンドトレーニング
エンドツーエンドのトレーニングアプローチを採用し、音声からテキストへの直接的なマッピングを学習

モデル能力

英語音声認識
音声からテキストへの変換

使用事例

音声文字起こし
会議議事録の文字起こし
英語の会議録音を自動的に文字記録に変換
単語誤り率約46%
音声コマンド認識
英語の音声コマンドを認識し実行可能なコマンドに変換
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase