X

Xlrs 53 Finnish

由vneralla開發
XLSR-Wav2Vec2是一個多語言語音識別模型,通過跨語言預訓練學習共享語音表徵,支持53種語言。
下載量 32
發布時間 : 3/2/2022

模型概述

該模型基於wav2vec 2.0架構,通過多語言原始語音波形預訓練,學習跨語言共享的語音表徵,適用於自動語音識別等下游任務。

模型特點

跨語言預訓練
在53種語言上預訓練,學習跨語言共享的語音表徵。
基於wav2vec 2.0
採用wav2vec 2.0架構,通過掩碼潛在語音表徵的對比任務進行訓練。
高性能
在CommonVoice基準測試中,音素錯誤率相對降低72%;在BABEL數據集上,詞錯誤率相對降低16%。

模型能力

多語言語音識別
跨語言語音表徵學習

使用案例

語音識別
多語言語音轉錄
將多種語言的語音轉換為文本。
在CommonVoice和BABEL數據集上表現優異。
低資源語言支持
低資源語言語音識別
為資源較少的語言提供語音識別能力。
跨語言預訓練顯著提升低資源語言的識別性能。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase