W

Wav2vec2 Large Ru Golos

由bond005開發
基於facebook/wav2vec2-large-xlsr-53微調的俄語語音識別模型,使用Sberdevices Golos數據集訓練,支持16kHz音頻輸入
下載量 1,182
發布時間 : 6/21/2022

模型概述

該模型是針對俄語優化的自動語音識別(ASR)模型,通過音高變換、速度調整和混響等增強技術提升識別效果,適用於多種俄語語音場景

模型特點

俄語優化
專門針對俄語語音特點進行微調,在多個俄語測試集上表現優異
音頻增強
訓練時應用了音高變換、速度調整和混響等增強技術,提升模型魯棒性
多場景適配
在近距離(crowd)和遠場(farfield)語音場景下均有良好表現

模型能力

俄語語音轉文本
16kHz音頻處理
遠場語音識別

使用案例

語音轉寫
俄語語音轉錄
將俄語語音內容轉換為文本
在Golos crowd測試集上WER 10.144%
智能助手
俄語語音指令識別
用於俄語智能家居設備的語音指令識別
在遠場場景下WER 20.353%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase