A

Asr Wav2vec2 Commonvoice Rw

由speechbrain開發
這是一個用於盧旺達語自動語音識別的端到端模型,基於wav2vec 2.0預訓練模型結合CTC和注意力機制,在CommonVoice數據集上微調。
下載量 28
發布時間 : 3/2/2022

模型概述

該模型提供盧旺達語的自動語音識別功能,包含分詞器和聲學模型兩個模塊,支持16kHz採樣率的音頻輸入。

模型特點

端到端語音識別
提供從音頻輸入到文本輸出的完整處理流程
預訓練模型微調
基於wav2vec2-large-xlsr-53預訓練模型在盧旺達語數據上微調
雙解碼機制
同時使用CTC和注意力機制進行解碼,提高識別準確性
自動音頻處理
內置音頻標準化功能,自動處理採樣率和聲道轉換

模型能力

盧旺達語語音識別
音頻轉錄
批量語音處理

使用案例

語音轉錄
語音轉文字
將盧旺達語語音內容轉換為文本
詞錯誤率18.91%
語音助手
盧旺達語語音交互
為盧旺達語語音助手提供識別能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase