W

Wav2vec2 Large Xlsr Gu

由gchhablani開發
基於facebook/wav2vec2-large-xlsr-53模型微調的古吉拉特語自動語音識別模型,在OpenSLR數據集上達到23.55%的WER
下載量 3,582
發布時間 : 3/2/2022

模型概述

這是一個用於古吉拉特語自動語音識別(ASR)的模型,基於XLSR Wav2Vec2架構微調,支持16kHz採樣率的語音輸入。

模型特點

高精度語音識別
在OpenSLR古吉拉特語測試集上達到23.55%的詞錯誤率(WER)
無需語言模型
可直接使用,不需要額外的語言模型支持
多采樣率支持
內置重採樣功能,可處理不同採樣率的音頻輸入

模型能力

古吉拉特語語音識別
音頻轉文本
語音內容分析

使用案例

語音轉錄
古吉拉特語語音轉錄
將古吉拉特語語音內容轉換為文本
準確率達到76.45% (WER 23.55%)
語音助手
古吉拉特語語音指令識別
用於開發古吉拉特語語音助手和控制系統
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase