W

Wav2vec2 Xls R 300m Ca

由PereLluis13開發
基於facebook/wav2vec2-xls-r-300m在加泰羅尼亞語數據集上微調的語音識別模型,支持自動語音識別任務。
下載量 116
發布時間 : 3/2/2022

模型概述

該模型是針對加泰羅尼亞語的自動語音識別(ASR)模型,在多個加泰羅尼亞語數據集上進行了微調,能夠將語音轉換為文本。

模型特點

多數據集訓練
在MOZILLA-FOUNDATION/COMMON_VOICE_8_0、tv3_parla和parlament_parla等多個加泰羅尼亞語數據集上進行了微調
數字轉換支持
使用特殊處理將數字轉換為文字形式,提高數字識別準確率
優化的訓練流程
採用精心設計的預處理流程和訓練超參數,包括線性學習率調度和AMP混合精度訓練

模型能力

加泰羅尼亞語語音識別
語音轉文本
數字識別

使用案例

媒體轉錄
電視節目字幕生成
為加泰羅尼亞語電視節目自動生成字幕
在tv3_parla數據集上WER為23.32%
會議記錄
議會會議記錄
自動轉錄加泰羅尼亞議會會議內容
在parlament_parla數據集上WER為8.05%
語音助手
加泰羅尼亞語語音輸入
為加泰羅尼亞語語音助手提供語音識別能力
在Common Voice數據集上WER為13.17%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase