WavLM-largeオープンソース音声モデル - 全スタック音声処理タスクを無料でサポート

ホーム

Wavlm Large

microsoftによって開発

WavLMはマイクロソフトが開発した大規模自己教師付き音声事前学習モデルで、フルスタック音声処理タスクをサポートし、SUPERBベンチマークテストで優れた性能を発揮します。

音声認識

Transformers

英語#フルスタック音声処理 #大規模自己教師付き事前学習 #話者特徴保持

ダウンロード数 396.53k

リリース時間 : 3/2/2022

モデル概要

16kHzサンプリング音声オーディオデータに基づいて構築された事前学習モデルで、革新的なアーキテクチャ設計により音声内容のモデリングと話者特徴の保持を実現し、さまざまな音声処理タスクに適用できます。

モデル特徴

フルスタック音声処理

統一アーキテクチャにより音声認識、話者認識などのさまざまな音声タスクをサポートします。

大規模事前学習

9.4万時間の英語音声データを使用して学習し、Libri - Light、GigaSpeech、VoxPopuliデータセットをカバーします。

革新的な学習戦略

教師なし音声混合学習戦略を採用して話者の区別度を強化します。

高性能

SUPERBベンチマークテストで最適な性能を達成します。

モデル能力

音声特徴抽出

話者認識

音声内容理解

オーディオ分類

使用事例

音声認識

英語音声をテキストに変換

英語音声をテキスト内容に変換します。

微調整後に使用する必要があります。

話者認識

話者検証

音声中の話者の身元を識別します。

オーディオ分析

オーディオ分類

オーディオ内容を分類識別します。

🚀 WavLM-Large

MicrosoftのWavLM

この大規模モデルは、16kHzでサンプリングされた音声オーディオで事前学習されています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

⚠️ 重要提示

このモデルは音声のみで事前学習されているため、トークナイザーがありません。このモデルを音声認識に使用するには、トークナイザーを作成し、ラベル付きのテキストデータでモデルをファインチューニングする必要があります。モデルのファインチューニング方法の詳細については、このブログを参照してください。

モデルは以下のデータで事前学習されています。

60,000時間のLibri-Light
10,000時間のGigaSpeech
24,000時間のVoxPopuli

論文: WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing

著者: Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Furu Wei

概要自己教師付き学習（SSL）は音声認識で大きな成功を収めていますが、他の音声処理タスクに対する探索は限られています。音声信号には話者の識別情報、パラ言語情報、話された内容など、多面的な情報が含まれているため、すべての音声タスクに対する普遍的な表現を学習することは困難です。本論文では、フルスタックの下流音声タスクを解決するための新しい事前学習モデル、WavLMを提案します。WavLMはHuBERTフレームワークに基づいて構築されており、話された内容のモデリングと話者の識別情報の保持の両方に重点を置いています。まず、Transformer構造にゲート付き相対位置バイアスを備えさせ、認識タスクに対する能力を向上させます。より良い話者識別のために、発話混合トレーニング戦略を提案します。この戦略では、追加の重複する発話を教師なしで作成し、モデルトレーニング中に組み込みます。最後に、トレーニングデータセットを60,000時間から94,000時間に拡大します。WavLM LargeはSUPERBベンチマークで最先端の性能を達成し、代表的なベンチマークにおける様々な音声処理タスクで大幅な改善をもたらします。

元のモデルは、https://github.com/microsoft/unilm/tree/master/wavlm で見つけることができます。