S

Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp

espnetによって開発
ESPnetフレームワークでトレーニングされた自動音声認識(ASR)モデルで、ConformerアーキテクチャとWavLM大型事前学習モデルを使用し、LibriSpeechデータセットでトレーニングされました。
ダウンロード数 66
リリース時間 : 3/2/2022

モデル概要

このモデルは高性能な英語自動音声認識システムで、生の音声入力を処理しテキストに変換するように設計されています。

モデル特徴

高性能アーキテクチャ
Conformer7とWavLM大型事前学習モデルを組み合わせ、優れた音声認識能力を提供します
LibriSpeechトレーニング
広く使用されているLibriSpeechデータセットでトレーニングされており、様々な音声条件下でのロバスト性を確保しています
低エラー率
テストセットで優れた性能を示し、クリーンな音声では単語誤り率(WER)が1.8%、ノイズのある音声では3.7%と低い

モデル能力

英語音声認識
生音声処理
大規模音声からテキストへ

使用事例

音声文字起こし
会議議事録
会議録音を自動的に文字起こし
テストセットのクリーンデータで98.4%の精度
音声字幕生成
ポッドキャストや動画コンテンツの字幕を生成
ノイズのある音声環境でも96.7%の精度を維持
音声アシスタント
音声コマンド認識
音声コマンドを認識し実行
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase