W

Wav2vec2 Large Xlsr Persian Shemo

由m3hrdadfi開發
基於Wav2Vec2-Large-XLSR-53在波斯語ShEMO數據集上微調的自動語音識別模型
下載量 28
發布時間 : 3/2/2022

模型概述

該模型是針對波斯語(Farsi)優化的自動語音識別(ASR)模型,基於Facebook的Wav2Vec2-Large-XLSR-53架構,在ShEMO波斯語情感語音數據集上微調而成,適用於波斯語語音轉文本任務。

模型特點

波斯語優化
專門針對波斯語語音特點進行優化,包含波斯語特有的文本規範化處理
情感語音識別
在ShEMO情感語音數據集上微調,對帶有情感的波斯語語音有更好識別效果
無需語言模型
可直接使用,無需額外語言模型支持

模型能力

波斯語語音識別
情感語音處理
16kHz音頻處理

使用案例

語音轉文本
波斯語語音轉錄
將波斯語語音內容轉換為文本
在ShEMO測試集上達到31%的WER
情感語音分析
識別帶有情感的波斯語語音內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase