W

Wav2vec2 Base Timit Demo Colab 1

Prasadiによって開発
このモデルはfacebook/wav2vec2-baseを微調整した音声認識モデルで、TIMITデータセットで訓練され、評価セットの単語誤り率(WER)は0.3874です。
ダウンロード数 15
リリース時間 : 3/2/2022

モデル概要

wav2vec2アーキテクチャに基づく英語音声認識用の微調整モデルで、自動音声認識(ASR)タスクに適しています。

モデル特徴

低単語誤り率
評価セットで0.3874の単語誤り率(WER)を達成し、良好な性能を示します。
Wav2Vec2アーキテクチャに基づく
facebookのwav2vec2-baseをベースモデルとして採用し、優れた音声特徴抽出能力を持っています。
微調整訓練
TIMITデータセットで微調整され、特定の音声認識シーンに適しています。

モデル能力

英語音声認識
音声をテキストに変換

使用事例

音声文字起こし
会議記録の自動文字起こし
英語の会議録音を自動的に文字記録に変換します
単語誤り率約38.74%
音声指令認識
英語の音声指令を認識し、実行可能なコマンドに変換します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase