W

Wav2vec2 Base 100h

vuiseng9によって開発
LibriSpeechの100時間データでトレーニングされたWav2Vec2基本版音声認識モデル
ダウンロード数 26
リリース時間 : 3/2/2022

モデル概要

これはWav2Vec2アーキテクチャに基づく自動音声認識(ASR)モデルで、LibriSpeechデータセットの100時間の英語音声データを使用してトレーニングされており、英語の音声からテキストへの変換タスクに適しています。

モデル特徴

効率的な音声認識
LibriSpeechテストセットで6.1(clean)と13.5(other)の単語誤り率(WER)を達成
軽量な基本モデル
より大規模なモデルと比較して、この100時間トレーニングの基本バージョンはリソースが限られた環境に適しています
互換性が高い
transformers v4.15.0とdatasets 1.18.0バージョンとの互換性が確認済み

モデル能力

英語音声認識
音声からテキストへの変換
バッチ音声処理

使用事例

音声文字起こし
会議議事録の文字起こし
英語の会議録音を自動的に文字記録に変換
クリアな音声環境では6.1%の単語誤り率を達成
教育コンテンツの文字起こし
英語の教育用音声コンテンツをテキストに変換
複雑な音声環境では13.5%の単語誤り率
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase