Wavlm Base
WavLMはマイクロソフトが開発した大規模な自己教師付き事前学習音声モデルで、16kHzサンプリングの音声オーディオを基に事前学習され、フルスタック音声処理タスクに適しています。
ダウンロード数 28.33k
リリース時間 : 3/2/2022
モデル概要
WavLMはHuBERTフレームワークに基づいて構築された事前学習音声モデルで、口語内容のモデリングと話者の識別情報の保持に特化しています。このモデルはSUPERBベンチマークテストで優れた性能を発揮し、音声認識、音声分類などの様々な音声処理タスクに適用できます。
モデル特徴
フルスタック音声処理
音声認識、音声分類、話者認証などの様々な音声処理タスクをサポートするように設計されています。
大規模事前学習
960時間のLibrispeechデータを基に事前学習され、学習データセットを9.4万時間に拡張しています。
話者識別情報の保持
発話混合学習戦略により、話者の識別情報を効果的に区別します。
改良されたTransformer構造
ゲート付き相対位置バイアスを備えることで、認識タスクの能力を向上させます。
モデル能力
音声表現学習
音声認識(微調整が必要)
音声分類(微調整が必要)
話者認証(微調整が必要)
話者ログ(微調整が必要)
使用事例
音声認識
英語音声の文字起こし
英語の音声をテキストに変換します。
ラベル付きのテキストデータで微調整してから使用する必要があります。
音声分類
感情認識
音声の感情状態を識別します。
ラベル付きのデータで微調整してから使用する必要があります。
話者認識
話者認証
音声の話者の識別情報を検証します。
特定のデータセットで微調整してから使用する必要があります。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98