W

Wav2vec2 Base Timit Demo Google Colab

patrickvonplatenによって開発
このモデルはfacebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。
ダウンロード数 26
リリース時間 : 5/10/2022

モデル概要

これは音声認識モデルで、wav2vec2アーキテクチャに基づき、TIMITデータセットでファインチューニングされており、英語音声をテキストに変換できます。

モデル特徴

wav2vec2アーキテクチャベース
Facebookのwav2vec2-baseアーキテクチャを採用しており、優れた音声特徴抽出能力を持っています
TIMITデータセットでファインチューニング
標準的なTIMIT音声データセットでファインチューニングを行い、英語音声認識の性能を最適化しました
比較的低い単語誤り率
評価セットで0.337の単語誤り率(WER)を達成しました

モデル能力

英語音声認識
音声からテキストへの変換

使用事例

音声文字起こし
英語音声文字起こし
英語音声コンテンツをテキストに変換します
単語誤り率0.337
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase