wav2vec2-pretrained-clsril-23-10k開源音頻模型 - 從23種印度語原始音頻學表徵

Wav2vec2 Pretrained Clsril 23 10k

由Harveenchadha開發

基於自監督學習的音頻預訓練模型，能夠從23種印度語言的原始音頻中學習跨語言語音表徵

下載量 32

發布時間 : 3/2/2022

模型概述

CLSRIL-23是基於wav2vec 2.0架構的語音表徵模型，通過對比學習任務訓練，可學習23種印度語言的共享語音特徵表示。該模型特別適用於印度多語言環境下的語音處理任務。

多語言支持

支持23種印度語言的語音表徵學習，覆蓋主要印度語系

自監督學習

採用自監督學習方法，無需大量標註數據即可學習有效語音表徵

共享量化表示

聯合學習所有語言共享的潛在量化表示，有利於跨語言遷移

大規模訓練數據

訓練數據總量超過9000小時，其中印地語數據量最大(4563.7小時)

跨語言語音表徵學習

語音特徵提取

多語言語音處理

語音識別

多語言自動語音識別

在印度多語言環境下構建語音識別系統

語音技術開發

語音特徵提取

作為下游語音任務的預訓練特徵提取器