W

Wavlm Libri Clean 100h Base

patrickvonplatenによって開発
microsoft/wavlm-baseをLIBRISPEECH_ASR - CLEANデータセットでファインチューニングした自動音声認識モデル
ダウンロード数 6,515
リリース時間 : 3/2/2022

モデル概要

このモデルは英語音声認識タスク向けに最適化されたWavLMベースバージョンで、100時間のクリーン音声データでファインチューニングされており、低い単語誤り率を実現しています。

モデル特徴

効率的なファインチューニング
100時間のクリーン音声データでファインチューニングを行い、ベースモデルの認識精度を大幅に向上させました
低い単語誤り率
評価データセットで0.0675の単語誤り率(WER)を達成し、優れた性能を示しています
マルチGPUトレーニング
8つのGPUを使用した分散トレーニングにより、トレーニング効率を向上させました

モデル能力

英語音声認識
連続音声テキスト変換
高精度文字起こし

使用事例

音声文字起こし
会議議録の自動生成
会議録音を自動的に文字記録に変換
約93.25%の精度(WER 0.0675に基づく計算)
ポッドキャストコンテンツインデックス
オーディオポッドキャスト番組の検索可能なテキストコンテンツを生成
支援技術
リアルタイム字幕生成
動画やライブコンテンツにリアルタイムで字幕を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase