W

Wav2vec2 Xls R 300m Phoneme

由vitouphy開發
基於facebook/wav2vec2-xls-r-300m微調的語音識別模型,專注於音素識別任務
下載量 12.26k
發布時間 : 5/19/2022

模型概述

該模型是wav2vec2-xls-r-300m的微調版本,專門用於音素識別任務。在評估集上取得了0.1332的字符錯誤率(Cer)。

模型特點

高效音素識別
針對音素識別任務進行了優化,在評估集上取得了較低的字符錯誤率
基於大規模預訓練模型
基於wav2vec2-xls-r-300m模型微調,繼承了其強大的語音特徵提取能力
優化的訓練配置
採用精心調優的訓練參數,包括學習率調度和梯度累積策略

模型能力

語音識別
音素識別
音頻特徵提取

使用案例

語音處理
語音轉音素
將語音信號轉換為音素序列
字符錯誤率0.1332
語音分析
用於語音學研究中的音素分析
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase