W

Wav2vec2 Bert CV16 En

hf-audioによって開発
w2v-bert-2.0をベースに、Common Voice 16.0の英語データセットで微調整された自動音声認識(ASR)モデル
ダウンロード数 1,700
リリース時間 : 1/5/2024

モデル概要

このモデルは英語音声認識用の自動音声認識システムで、Common Voice 16.0の英語データセットで微調整され、英語の音声をテキストに変換できます。

モデル特徴

効率的な音声認識
Common Voice 16.0の英語データセットで微調整され、高い認識精度を持ちます。
低い単語誤り率
評価セットで14.55%の単語誤り率(WER)と5.8%の文字誤り率(CER)を達成しました。
多GPU訓練最適化
多GPU分散訓練をサポートし、Adamオプティマイザーと線形学習率スケジューラーを使用します。

モデル能力

英語音声認識
音声からテキストへの変換
自動音声文字起こし

使用事例

音声文字起こし
音声メモの文字起こし
英語の音声メモを自動的にテキストに変換します。
精度約85.45%(1 - WER)
会議記録の自動化
英語の会議のテキスト記録を自動生成します。
支援技術
リアルタイム字幕生成
英語のビデオコンテンツにリアルタイム字幕を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase