W

Wavlm Libri Clean 100h Large

patrickvonplatenによって開発
microsoft/wavlm-largeを基にLIBRISPEECH_ASR - CLEANデータセットで微調整した自動音声認識モデル
ダウンロード数 8,171
リリース時間 : 3/2/2022

モデル概要

このモデルはWavLM-LargeアーキテクチャをLibriSpeech clean-100hデータセットで微調整したバージョンで、英語音声認識タスクに特化しており、評価セットで低い単語誤り率(WER)を達成しています。

モデル特徴

高性能音声認識
LibriSpeech clean-100hデータセットで微調整後、単語誤り率(WER)が0.0491と低い
WavLM-Largeアーキテクチャ採用
マイクロソフトのWavLM-Large事前学習モデルを基盤としており、強力な音声特徴抽出能力を有する
マルチGPUトレーニング最適化
8つのGPUを使用した分散トレーニングを実施し、勾配蓄積などの技術でトレーニング効率を最適化

モデル能力

英語音声認識
高精度音声テキスト変換
連続音声認識

使用事例

音声文字起こし
オーディオブック文字起こし
英語オーディオブックの内容を自動的にテキストに変換
LibriSpeech評価セットで単語誤り率4.91%
音声アシスタント
音声コマンド認識
スマートデバイスにおける英語音声コマンド認識に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase