W

Wav2vec2 Xls R 300m Zh HK Lm V2

由w11wo開發
基於XLS-R架構的自動語音識別模型,針對粵語(zh-HK)優化,在Common Voice數據集上微調並加入5-gram語言模型。
下載量 25
發布時間 : 3/2/2022

模型概述

該模型是一個針對粵語(zh-HK)優化的自動語音識別(ASR)模型,基於Facebook的Wav2Vec2-XLS-R-300M架構微調,並整合了PyCantonese語料庫訓練的5-gram語言模型以提高識別準確率。

模型特點

粵語優化
專門針對粵語(zh-HK)優化的語音識別模型,在Common Voice粵語數據集上微調。
5-gram語言模型增強
整合了基於PyCantonese語料庫訓練的5-gram語言模型,顯著提升識別準確率。
魯棒性能
參與了HuggingFace組織的魯棒語音挑戰賽事,在不同數據集上表現穩定。

模型能力

粵語語音識別
自動語音轉文本
支持多種語音數據集

使用案例

語音轉寫
粵語語音轉文字
將粵語語音內容轉換為文字記錄
在Common Voice數據集上CER為24.09%
語音應用開發
粵語語音助手
開發支持粵語的語音交互應用
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase