xlrs-53-finnish開源語音識別模型 - 支持53種語言的免費語音識別工具

Xlrs 53 Finnish

由vneralla開發

XLSR-Wav2Vec2是一個多語言語音識別模型，通過跨語言預訓練學習共享語音表徵，支持53種語言。

下載量 32

發布時間 : 3/2/2022

模型概述

該模型基於wav2vec 2.0架構，通過多語言原始語音波形預訓練，學習跨語言共享的語音表徵，適用於自動語音識別等下游任務。

跨語言預訓練

在53種語言上預訓練，學習跨語言共享的語音表徵。

基於wav2vec 2.0

採用wav2vec 2.0架構，通過掩碼潛在語音表徵的對比任務進行訓練。

高性能

在CommonVoice基準測試中，音素錯誤率相對降低72%；在BABEL數據集上，詞錯誤率相對降低16%。

多語言語音識別

跨語言語音表徵學習

語音識別

多語言語音轉錄

將多種語言的語音轉換為文本。

在CommonVoice和BABEL數據集上表現優異。

低資源語言支持

低資源語言語音識別

為資源較少的語言提供語音識別能力。

跨語言預訓練顯著提升低資源語言的識別性能。

Wav2Vec2-XLSR-53 是基於 16kHz 採樣語音音頻進行預訓練的基礎模型。該模型可用於語音相關任務，尤其在自動語音識別等下游任務中表現出色。使用時需確保輸入語音也為 16kHz 採樣，且通常需要在具體任務上進行微調。

本模型是在 16kHz 採樣的語音音頻上進行預訓練的基礎模型。使用該模型時，請確保您的語音輸入同樣採樣為 16kHz。需要注意的是，此模型應在下游任務（如自動語音識別）上進行微調。更多信息請查看此博客。

多語言支持：基於 Facebook 的 XLSR - Wav2Vec2，能夠學習跨語言的語音表示。
性能優越：在 CommonVoice 基準測試中，與已知最佳結果相比，相對音素錯誤率降低了 72%；在 BABEL 上，與可比系統相比，單詞錯誤率相對提高了 16%。
共享表示：分析表明，潛在的離散語音表示在不同語言之間是共享的，相關語言之間的共享程度更高。

論文鏈接：Paper
作者：Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, Michael Auli
摘要：本文提出了 XLSR，它通過從多種語言的語音原始波形中預訓練單個模型來學習跨語言的語音表示。我們基於 wav2vec 2.0 進行構建，該模型通過解決掩碼潛在語音表示上的對比任務進行訓練，並聯合學習跨語言共享的潛在量化。得到的模型在標記數據上進行微調，實驗表明跨語言預訓練明顯優於單語言預訓練。在 CommonVoice 基準測試中，與已知最佳結果相比，XLSR 的相對音素錯誤率降低了 72%。在 BABEL 上，我們的方法與可比系統相比，單詞錯誤率相對提高了 16%。我們的方法實現了一個單一的多語言語音識別模型，其性能可與強大的單個模型相媲美。分析表明，潛在的離散語音表示在不同語言之間是共享的，相關語言之間的共享程度更高。我們希望通過發佈在 53 種語言上預訓練的大型模型 XLSR - 53，推動低資源語音理解的研究。