A

Asr Wav2vec2 Librispeech

speechbrainによって開発
これはLibriSpeechデータセットでトレーニングされたエンドツーエンドの自動音声認識システムで、wav2vec 2.0事前トレーニングモデルとCTC技術を組み合わせ、英語音声認識タスクで優れた性能を発揮します。
ダウンロード数 1,667
リリース時間 : 6/5/2022

モデル概要

このモデルは英語自動音声認識システムで、wav2vec 2.0事前トレーニングモデルとCTC技術を使用し、LibriSpeechデータセットで微調整されています。英語音声を正確にテキストに変換できます。

モデル特徴

高精度音声認識
LibriSpeechテストセットで1.90%(クリーン)と3.96%(その他)の単語誤り率(WER)を達成
事前トレーニングモデルの微調整
facebook/wav2vec2-large-960h-lv60-self事前トレーニングモデルを基に、LibriSpeechでさらに微調整
エンドツーエンドシステム
完全なトークナイザーと音響モデルを含み、音声からテキストへの変換タスクに直接使用可能
使いやすさ
シンプルなAPIインターフェースを提供し、数行のコードで音声文字起こしを実現

モデル能力

英語音声認識
音声文字起こし
自動音声からテキストへの変換

使用事例

音声文字起こし
会議議事録
会議録音を自動的に文字記録に変換
高精度な文字起こし結果
音声メモ
音声メモを検索可能なテキストに変換
支援技術
リアルタイム字幕生成
動画やライブコンテンツのリアルタイム字幕を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase