W

Wav2vec2 Large Xlsr 53 Tw Gpt

由voidful開發
基於facebook/wav2vec2-large-xlsr-53在臺灣普通話(zh-tw)上微調的語音識別模型,支持16kHz採樣率語音輸入
下載量 47
發布時間 : 3/2/2022

模型概述

這是一個針對臺灣普通話優化的自動語音識別(ASR)模型,基於Facebook的wav2vec2-large-xlsr-53架構微調而成,在Common Voice zh-TW數據集上訓練

模型特點

臺灣普通話優化
專門針對臺灣普通話語音特點進行微調
支持語言模型融合
可與GPT或BERT等語言模型結合使用,提高識別準確率
高效推理
在Common Voice測試集上CER為18.36%,推理速度較快

模型能力

臺灣普通話語音識別
支持16kHz採樣率音頻處理
可與語言模型結合使用

使用案例

語音轉文字
臺灣普通話語音轉錄
將臺灣普通話的語音內容轉換為文字
CER 18.36% (使用GPT+束搜索評估)
語音助手
臺灣地區語音指令識別
用於識別臺灣普通話的語音指令
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase