W

Wav2vec2 Base Timit Demo Colab

wasilkasによって開発
facebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、単語誤り率(WER)は0.3382
ダウンロード数 24
リリース時間 : 3/20/2022

モデル概要

これは英語音声認識のためのモデルで、wav2vec2アーキテクチャを基にTIMITデータセットでファインチューニングされています。

モデル特徴

低単語誤り率
TIMIT評価セットで0.3382の単語誤り率(WER)を達成
wav2vec2アーキテクチャベース
facebookのwav2vec2-baseをベースモデルとして使用
軽量
baseバージョンで推論可能、計算リソース要求が比較的低い

モデル能力

英語音声認識
音声からテキスト変換

使用事例

音声書き起こし
英語音声転写
英語音声コンテンツをテキストに変換
単語誤り率0.3382
教育
発音評価
英語学習者の発音評価システムに利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase