H

Hubert Base Ls960

由facebook開發
HuBERT是一種自監督語音表示學習模型,通過類似BERT的預測損失學習語音特徵,適用於語音識別等任務。
下載量 406.60k
發布時間 : 3/2/2022

模型概述

HuBERT(隱藏單元BERT)是一種自監督語音表示學習方法,通過離線聚類步驟為類似BERT的預測損失提供目標標籤。該模型在16kHz採樣的語音音頻上進行了預訓練,適用於語音識別、生成和壓縮等任務。

模型特點

自監督學習
通過無監督聚類步驟提供目標標籤,無需大量標註數據即可學習語音表示。
高效語音表示
在連續輸入上結合聲學和語言模型,學習高效的語音特徵表示。
高性能
在Librispeech和Libri-light基準測試中表現優於或相當於最先進的wav2vec 2.0模型。

模型能力

語音表示學習
語音識別
語音生成
語音壓縮

使用案例

語音識別
自動語音轉錄
將語音音頻轉換為文本,適用於會議記錄、字幕生成等場景。
在Librispeech測試集上表現優異,相對詞錯誤率降低13-19%。
語音生成
語音合成
結合其他模型生成自然語音。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase