S

Speecht5 Asr

由microsoft開發
基於LibriSpeech數據集微調的SpeechT5自動語音識別模型,支持將語音轉換為文本。
下載量 12.30k
發布時間 : 2/2/2023

模型概述

SpeechT5是一個統一的模態編碼器-解碼器預訓練框架,專為口語處理任務設計,支持語音識別等多種任務。

模型特點

統一模態框架
通過共享的編碼器-解碼器網絡處理語音和文本,實現跨模態表示學習。
跨模態向量量化
採用隨機混合語音/文本狀態與潛在單元的方法,實現文本與語音信息在統一語義空間的對齊。
多任務支持
不僅支持語音識別,還可用於語音合成、語音翻譯、語音轉換等多種口語處理任務。

模型能力

語音識別
語音轉文本

使用案例

語音處理
自動語音識別
將語音內容轉換為文本,適用於會議記錄、語音助手等場景。
在LibriSpeech數據集上表現優越。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase