W

Wav2vec2 Base Timit Demo Google Colab

dasoljによって開発
facebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに特化
ダウンロード数 127
リリース時間 : 6/27/2022

モデル概要

このモデルはwav2vec2-baseのファインチューニング版で、英語音声認識タスク専用に設計され、TIMITデータセットで訓練されており、英語音声をテキストに変換可能

モデル特徴

wav2vec2-baseベースのファインチューニング
強力なwav2vec2-baseを基盤に特定タスク向けに最適化
低単語誤り率
評価セットで0.3424の単語誤り率(WER)を達成
エンドツーエンド音声認識
生の音声入力を直接テキスト出力に変換

モデル能力

英語音声認識
音声からテキスト変換
自動音声転写

使用事例

音声転写
会議議録の自動化
英語会議録音を自動的にテキスト記録に変換
単語誤り率約34%
音声メモ変換
英語音声メモを編集可能なテキストに変換
支援技術
リアルタイム字幕生成
英語動画コンテンツ向けにリアルタイム字幕を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase