W

Wav2vec2 Base Vi Vlsp2020

由nguyenvulebinh開發
基於wav2vec2架構的越南語自動語音識別模型,預訓練於13,000小時未標註YouTube音頻,並在250小時標註數據上微調。
下載量 262
發布時間 : 11/4/2022

模型概述

該模型專為越南語自動語音識別(ASR)設計,支持帶語言模型的解碼以提高準確率。

模型特點

大規模預訓練
使用13,000小時越南語YouTube音頻進行自監督預訓練
高精度微調
在VLSP ASR數據集的250小時標註數據上微調
語言模型集成
支持5-gram語言模型解碼,顯著降低WER

模型能力

越南語語音識別
帶語言模型的語音解碼

使用案例

語音轉錄
越南語語音轉文本
將越南語語音內容轉換為文本
測試集WER低至5.32%(帶語言模型)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase