W

Wav2vec2 Large Xlsr 53 Portuguese

由jonatasgrosman開發
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
下載量 4.9M
發布時間 : 3/2/2022

模型概述

該模型是基於facebook/wav2vec2-large-xlsr-53架構微調的葡萄牙語自動語音識別(ASR)模型,能夠將葡萄牙語語音轉換為文本。

模型特點

高精度葡萄牙語識別
在Common Voice葡萄牙語測試集上達到11.31%的詞錯誤率(WER)和3.74%的字錯誤率(CER)
支持語言模型增強
結合語言模型後,詞錯誤率可進一步降低至9.01%,字錯誤率降至3.21%
16kHz採樣率支持
專門針對16kHz採樣率的語音輸入進行優化
GPU加速訓練
利用OVHcloud提供的GPU算力資源進行高效訓練

模型能力

葡萄牙語語音識別
即時語音轉文本
批量音頻處理

使用案例

語音轉錄
會議記錄轉錄
將葡萄牙語會議錄音自動轉換為文字記錄
準確率約90% (WER 9.01% with LM)
語音筆記轉換
將個人語音備忘錄轉換為可搜索的文本
基礎準確率88.69% (WER 11.31)
輔助技術
語音輸入系統
為葡萄牙語用戶提供語音輸入解決方案
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase