U

Unispeech Sat Base 100h Libri Ft

由microsoft開發
基於UniSpeech-SAT基礎模型,在LibriSpeech語音數據上進行了100小時微調的自動語音識別模型
下載量 643
發布時間 : 3/2/2022

模型概述

這是一個專門用於自動語音識別(ASR)的模型,基於微軟的UniSpeech-SAT架構,通過自監督學習增強說話人表徵能力,適用於英語語音轉文本任務

模型特點

說話人感知預訓練
通過結合語句級對比損失與SSL目標函數,增強說話人表徵學習能力
語句混合數據增強
採用創新的語句混合策略,在訓練中無監督生成重疊語句,提升模型區分說話人的能力
大規模預訓練
原始模型使用9.4萬小時公開音頻數據進行預訓練,具有強大的泛化能力

模型能力

英語語音識別
說話人特徵提取
16kHz採樣音頻處理

使用案例

語音轉文本
語音轉錄
將英語語音內容轉換為文本
在LibriSpeech數據集上表現良好
語音分析
說話人識別
提取語音中的說話人特徵
論文顯示在SUPERB基準測試中表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase