W

Wav2vec2 Base Cynthia Tedlium 2500 V2

huyue012によって開発
このモデルは、facebook/wav2vec2-base-960hをベースにTED-LIUMデータセットで微調整した音声認識モデルで、評価セットで20.33%の単語誤り率を達成しています。
ダウンロード数 25
リリース時間 : 3/2/2022

モデル概要

英語の音声認識タスクに最適化されたwav2vec2モデルで、音声をテキストに変換するアプリケーションシナリオに適しています。

モデル特徴

低単語誤り率
TED-LIUM評価セットで20.33%の単語誤り率を達成し、優れた性能を発揮します。
wav2vec2アーキテクチャに基づく
検証済みのwav2vec2-base-960hをベースモデルとして採用しています。
細かい調整
50エポックの訓練と3500ステップの細かい調整過程を経ています。

モデル能力

英語の音声認識
音声をテキストに変換
連続音声認識

使用事例

教育
講義の文字起こし
TED講演などの教育コンテンツを自動的に文字起こしします。
精度約80%
会議記録
会議記録の自動化
会議内容を自動的に記録し、文字記録を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase