U

Unispeech 1350 En 17h Ky Ft 1h

由microsoft開發
基於微軟UniSpeech架構的語音識別模型,專門針對吉爾吉斯語進行微調
下載量 39
發布時間 : 3/2/2022

模型概述

該模型是基於16kHz採樣語音音頻和音素標籤預訓練的大模型,並在1小時的吉爾吉斯語音素數據上微調。主要用於吉爾吉斯語的自動語音識別任務。

模型特點

多任務學習
結合監督式音素CTC學習和音素感知對比自監督學習
跨語言泛化能力
通過統一預訓練方法提升跨語言和跨領域的泛化能力
高效微調
僅需1小時的吉爾吉斯語音素數據即可完成微調

模型能力

吉爾吉斯語語音識別
音素序列預測
跨語言語音表徵學習

使用案例

語音識別
吉爾吉斯語語音轉文本
將吉爾吉斯語語音轉換為音素序列或文本
相比自監督預訓練和監督遷移學習,分別最高可降低13.4%和17.8%的相對音素錯誤率
語音技術研究
跨語言語音表徵研究
用於研究語音表徵的跨語言遷移能力
在領域遷移語音識別任務中實現6%的相對詞錯誤率下降
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase