W

Wavlm Base

microsoftによって開発
WavLMはマイクロソフトが開発した大規模な自己教師付き事前学習音声モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、フルスタック音声処理タスクに適しています。
ダウンロード数 28.33k
リリース時間 : 3/2/2022

モデル概要

WavLMはHuBERTフレームワークに基づいて構築された事前学習音声モデルで、口語内容のモデリングと話者の識別情報の保持に特化しています。このモデルはSUPERBベンチマークテストで優れた性能を発揮し、音声認識、音声分類などの様々な音声処理タスクに適用できます。

モデル特徴

フルスタック音声処理
音声認識、音声分類、話者認証などの様々な音声処理タスクをサポートするように設計されています。
大規模事前学習
960時間のLibrispeechデータを基に事前学習され、学習データセットを9.4万時間に拡張しています。
話者識別情報の保持
発話混合学習戦略により、話者の識別情報を効果的に区別します。
改良されたTransformer構造
ゲート付き相対位置バイアスを備えることで、認識タスクの能力を向上させます。

モデル能力

音声表現学習
音声認識(微調整が必要)
音声分類(微調整が必要)
話者認証(微調整が必要)
話者ログ(微調整が必要)

使用事例

音声認識
英語音声の文字起こし
英語の音声をテキストに変換します。
ラベル付きのテキストデータで微調整してから使用する必要があります。
音声分類
感情認識
音声の感情状態を識別します。
ラベル付きのデータで微調整してから使用する必要があります。
話者認識
話者認証
音声の話者の識別情報を検証します。
特定のデータセットで微調整してから使用する必要があります。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase