A

Asr Wav2vec2 Commonvoice En

speechbrainによって開発
これはCommonVoice英語データセットを使って訓練されたエンドツーエンドの自動音声認識システムで、wav2vec 2.0の事前学習モデルとCTCデコーダを組み合わせています。
ダウンロード数 681
リリース時間 : 3/2/2022

モデル概要

このモデルは英語の音声認識タスクに使用され、wav2vec 2.0を音響特徴抽出器として採用し、CTCデコーダと組み合わせてエンドツーエンドで訓練されています。

モデル特徴

エンドツーエンドの音声認識
wav2vec 2.0の事前学習モデルとCTCデコーダを組み合わせて、完全な音声認識プロセスを実現します。
言語モデルに依存しない
システムは外部の言語モデルに依存せず、デプロイプロセスを簡素化します。
自動音声前処理
音声の標準化処理が組み込まれており、リサンプリングとモノラル選択が含まれます。

モデル能力

英語音声認識
音声文字起こし
バッチ音声処理

使用事例

音声文字起こし
会議録の自動文字起こし
英語の会議録音を自動的に文字起こしします。
単語誤り率15.69%(CommonVoiceテストセットで)
音声メモの変換
音声メモを編集可能なテキストに変換します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase