W

Wav2vec2 Large Tedlium

sanchit-gandhiによって開発
TEDLIUMコーパスでファインチューニングされたWav2Vec2大型音声認識モデル、英語音声からテキストへの変換をサポート
ダウンロード数 58
リリース時間 : 7/4/2022

モデル概要

このモデルはTEDLIUMコーパスでファインチューニングされたWav2Vec2大型モデルで、英語音声認識タスク専用です。

モデル特徴

高精度音声認識
TEDLIUMテストセットで8.2%の単語誤り率(WER)を達成
大規模事前学習
LibriVox 60,000時間の音声で事前学習済み
ドメイン適応
452時間のTEDトークデータでファインチューニング済み

モデル能力

英語音声認識
長時間音声処理
16kHzサンプリングレート音声処理

使用事例

音声文字起こし
TEDトーク文字起こし
TEDトーク音声をテキストに変換
8.4% WER(開発セット)
教育コンテンツ文字起こし
教育講義やスピーチ内容をテキストに変換
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase