W

Wav2vec2 Large Xlsr Cantonese

由ctl開發
基於Facebook的wav2vec2-large-xlsr-53模型微調的粵語語音識別模型,支持16kHz採樣率的語音輸入。
下載量 1,010
發布時間 : 3/2/2022

模型概述

該模型是針對粵語優化的自動語音識別(ASR)模型,基於Facebook的wav2vec2-large-xlsr-53架構,使用普通語音(Common Voice)粵語數據集進行微調。

模型特點

粵語優化
專門針對粵語語音特點進行微調,提高識別準確率
無需語言模型
可直接使用,無需額外語言模型支持
16kHz採樣率支持
支持標準16kHz採樣率的語音輸入

模型能力

粵語語音識別
自動語音轉文本

使用案例

語音轉寫
粵語語音轉文字
將粵語語音內容轉換為文本
測試CER為15.36%
語音助手
粵語語音交互
為粵語用戶提供語音交互能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase