W

Wav2vec2 Base Timit Demo Google Colab

Developed by dasolj
facebook/wav2vec2-baseをTIMITデータセットでファインチューニングした音声認識モデルで、英語音声からテキストへの変換タスクに特化
Downloads 127
Release Time : 6/27/2022

Model Overview

このモデルはwav2vec2-baseのファインチューニング版で、英語音声認識タスク専用に設計され、TIMITデータセットで訓練されており、英語音声をテキストに変換可能

Model Features

wav2vec2-baseベースのファインチューニング
強力なwav2vec2-baseを基盤に特定タスク向けに最適化
低単語誤り率
評価セットで0.3424の単語誤り率(WER)を達成
エンドツーエンド音声認識
生の音声入力を直接テキスト出力に変換

Model Capabilities

英語音声認識
音声からテキスト変換
自動音声転写

Use Cases

音声転写
会議議録の自動化
英語会議録音を自動的にテキスト記録に変換
単語誤り率約34%
音声メモ変換
英語音声メモを編集可能なテキストに変換
支援技術
リアルタイム字幕生成
英語動画コンテンツ向けにリアルタイム字幕を生成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase