U

Unispeech 1350 En 90 It Ft 1h

由microsoft開發
UniSpeech是一個統一的語音表徵學習模型,結合了監督式音素CTC學習和自監督學習,特別針對意大利語進行了微調。
下載量 19
發布時間 : 3/2/2022

模型概述

該模型基於16kHz採樣的語音音頻及音素標籤進行預訓練,並在1小時意大利語音素數據上微調,適用於音素分類任務。

模型特點

多任務學習
同時進行監督式音素CTC學習和音素感知對比自監督學習
跨語言泛化
生成的表徵能更好捕捉與音素結構相關的信息,提升跨語言和跨領域的泛化能力
高效微調
僅需1小時的意大利語音素數據即可完成微調

模型能力

語音識別
音素分類
跨語言語音表徵學習

使用案例

語音識別
意大利語音素識別
將意大利語語音轉換為音素序列
音素錯誤率6.69%
語音技術研究
跨語言語音表徵研究
研究語音表徵在不同語言間的遷移能力
相比自監督預訓練和監督遷移學習,分別最高可降低13.4%和17.8%的相對音素錯誤率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase