WavLM-baseオープンソース音声モデル - 無料でデプロイ可能、フルスタック音声処理タスクに適用

ホーム

Wavlm Base

microsoftによって開発

WavLMはマイクロソフトが開発した大規模な自己教師付き事前学習音声モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、フルスタック音声処理タスクに適しています。

音声認識

Transformers

英語#フルスタック音声処理 #自己教師付き事前学習 #話者情報の保持

ダウンロード数 28.33k

リリース時間 : 3/2/2022

モデル概要

WavLMはHuBERTフレームワークに基づいて構築された事前学習音声モデルで、口語内容のモデリングと話者の識別情報の保持に特化しています。このモデルはSUPERBベンチマークテストで優れた性能を発揮し、音声認識、音声分類などの様々な音声処理タスクに適用できます。

モデル特徴

フルスタック音声処理

音声認識、音声分類、話者認証などの様々な音声処理タスクをサポートするように設計されています。

大規模事前学習

960時間のLibrispeechデータを基に事前学習され、学習データセットを9.4万時間に拡張しています。

話者識別情報の保持

発話混合学習戦略により、話者の識別情報を効果的に区別します。

改良されたTransformer構造

ゲート付き相対位置バイアスを備えることで、認識タスクの能力を向上させます。

モデル能力

音声表現学習

音声認識（微調整が必要）

音声分類（微調整が必要）

話者認証（微調整が必要）

話者ログ（微調整が必要）

使用事例

音声認識

英語音声の文字起こし

英語の音声をテキストに変換します。

ラベル付きのテキストデータで微調整してから使用する必要があります。

音声分類

感情認識

音声の感情状態を識別します。

ラベル付きのデータで微調整してから使用する必要があります。

話者認識

話者認証

音声の話者の識別情報を検証します。

特定のデータセットで微調整してから使用する必要があります。

🚀 WavLM-Base

MicrosoftのWavLMは、16kHzでサンプリングされた音声オーディオで事前学習されたベースモデルです。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

⚠️ 重要提示

このモデルは音声のみで事前学習されているため、トークナイザーがありません。このモデルを音声認識に使用するには、トークナイザーを作成し、ラベル付きのテキストデータでモデルをファインチューニングする必要があります。モデルのファインチューニング方法の詳細については、このブログを参照してください。

このモデルは、960時間のLibrispeechで事前学習されています。

論文: WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing

著者: Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei

概要自己教師あり学習（SSL）は音声認識で大きな成功を収めていますが、他の音声処理タスクに対する探索は限られています。音声信号には話者の識別情報、パラ言語情報、話された内容など、多面的な情報が含まれているため、すべての音声タスクに対する普遍的な表現を学習することは困難です。本論文では、フルスタックの下流音声タスクを解決するための新しい事前学習モデル、WavLMを提案します。WavLMはHuBERTフレームワークに基づいて構築されており、話された内容のモデリングと話者識別情報の保存の両方に重点を置いています。まず、Transformer構造にゲート付き相対位置バイアスを搭載し、認識タスクに対する能力を向上させます。より良い話者識別のために、発話混合トレーニング戦略を提案します。この戦略では、追加の重複する発話を教師なしで作成し、モデルトレーニング中に組み込みます。最後に、トレーニングデータセットを60,000時間から94,000時間に拡大します。WavLM Largeは、SUPERBベンチマークで最先端の性能を達成し、代表的なベンチマークでの様々な音声処理タスクに大きな改善をもたらします。

元のモデルは、https://github.com/microsoft/unilm/tree/master/wavlm で見つけることができます。