WavLM-base-plusオープンソース音声モデル - 無料でのデプロイで様々な音声処理タスクを支援

ホーム

Wavlm Base Plus

microsoftによって開発

WavLMはマイクロソフトによって開発された大規模な自己教師付き事前学習音声モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、様々な音声処理タスクに適用できます。

音声認識

Transformers

英語#フルスタック音声処理 #自己教師付き事前学習 #話者特性の保持

ダウンロード数 673.32k

リリース時間 : 3/2/2022

モデル概要

WavLMはHuBERTフレームワークに基づいて構築された事前学習音声モデルで、音声内容のモデリングと話者特性の保持に特化しています。このモデルはSUPERBベンチマークテストで優れた性能を発揮し、音声認識、音声分類などの様々な下流タスクに適しています。

モデル特徴

大規模事前学習

モデルは6万時間のLibri - Light、1万時間のGigaSpeech、2.4万時間のVoxPopuliデータセットで事前学習されています。

フルスタック音声処理

音声内容のモデリングと話者特性の保持を最適化し、様々な音声処理タスクに適用できます。

話し声混合学習

教師なしで重複する話し声を生成する学習戦略を採用し、話者の識別性を強化します。

モデル能力

音声認識

音声分類

話者認証

話者ログ

使用事例

音声認識

英語音声をテキストに変換

英語の音声をテキスト内容に変換します。

SUPERBベンチマークテストで最先端レベルに達しました。

音声分類

感情分析

音声を通じて話者の感情状態を分析します。

🚀 WavLM-Base-Plus

MicrosoftのWavLMは、16kHzでサンプリングされた音声オーディオで事前学習されたベースモデルです。このモデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

注意: このモデルは音声のみで事前学習されているため、トークナイザーを持っていません。このモデルを音声認識に使用するには、トークナイザーを作成し、ラベル付きのテキストデータでモデルをファインチューニングする必要があります。モデルのファインチューニング方法の詳細については、このブログを参照してください。

このモデルは以下のデータセットで事前学習されています。

60,000時間のLibri-Light
10,000時間のGigaSpeech
24,000時間のVoxPopuli

論文: WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing

著者: Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei

概要自己教師付き学習（SSL）は音声認識で大きな成功を収めていますが、他の音声処理タスクに対する探索は限られています。音声信号には話者の識別情報、パラ言語情報、話された内容など、多面的な情報が含まれているため、すべての音声タスクに対する普遍的な表現を学習することは困難です。この論文では、フルスタックの下流音声タスクを解決するための新しい事前学習モデル、WavLMを提案します。WavLMはHuBERTフレームワークに基づいて構築されており、話された内容のモデリングと話者の識別情報の保存の両方に重点を置いています。まず、Transformer構造にゲート付き相対位置バイアスを備えさせ、認識タスクに対する能力を向上させます。より良い話者識別のために、発話混合学習戦略を提案します。この戦略では、追加の重複する発話を教師なしで作成し、モデル学習中に組み込みます。最後に、学習データセットを60,000時間から94,000時間に拡大します。WavLM LargeはSUPERBベンチマークで最先端の性能を達成し、代表的なベンチマークでの様々な音声処理タスクに大きな改善をもたらします。

元のモデルはhttps://github.com/microsoft/unilm/tree/master/wavlm で見つけることができます。