W

Wav2vec2 Large Xlsr 53 English

jonatasgrosmanによって開発
facebook/wav2vec2-large-xlsr-53モデルをベースに微調整された英語音声認識モデルで、Common Voice 6.1データセットで訓練されました。
ダウンロード数 251.78k
リリース時間 : 3/2/2022

モデル概要

これは英語音声認識タスクに対して微調整されたXLSR - 53大規模モデルで、英語の音声をテキストに変換することができます。

モデル特徴

高性能の英語音声認識
Common Voiceテストセットで19.06%の単語誤り率と7.69%の文字誤り率を達成しました。
言語モデルによる強化をサポート
言語モデルを組み合わせると、単語誤り率を14.81%、文字誤り率を6.84%に下げることができます。
16kHzサンプリングレートのサポート
16kHzサンプリングレートの音声入力に最適化されています。
XLSR - 53事前学習モデルをベース
大規模なクロス言語音声表現学習(XLSR)の事前学習の利点を生かしています。

モデル能力

英語音声認識
音声をテキストに変換
長いオーディオの処理をサポート(チャンク分割による)

使用事例

音声文字起こし
会議録の自動文字起こし
英語の会議録音を自動的に文字起こしします。
精度約80.94%(WERに基づく)
音声メモの変換
個人の音声メモを検索可能なテキストに変換します。
支援技術
リアルタイム字幕生成
英語のビデオまたはライブ配信にリアルタイム字幕を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase