sew-d-tiny-100k開源語音預訓練模型 - 適用於多種下游語音任務

Sew D Tiny 100k

由asapp開發

SEW-D是由ASAPP Research開發的壓縮高效型語音預訓練模型，基於16kHz採樣的語音音頻進行預訓練，適用於多種下游語音任務。

下載量 1,074

發布時間 : 3/2/2022

模型概述

SEW-D是一種高效的語音預訓練模型，專為自動語音識別等任務設計，通過優化架構實現性能與效率的雙重提升。

高效推理

相比wav2vec 2.0實現了1.9倍的推理加速。

性能提升

在相近推理耗時下，詞錯誤率降低25%-50%。

優化架構

通過系統化分析架構設計，實現性能與效率的雙重提升。

語音識別

說話人識別

意圖分類

情感識別

語音處理

自動語音識別

將語音轉換為文本

在LibriSpeech數據集上詞錯誤率相對降低13.5%

說話人識別

識別不同說話人的身份

SEW-D-tiny 是基於 16kHz 採樣語音音頻預訓練的基礎模型。該模型可用於多種語音相關下游任務，如自動語音識別、說話人識別、意圖分類、情感識別等。使用時需確保輸入語音也為 16kHz 採樣。

本模型是在 16kHz 採樣的語音音頻上進行預訓練的基礎模型。使用該模型時，請確保您的語音輸入同樣採用 16kHz 採樣。請注意，此模型需要在下游任務（如自動語音識別、說話人識別、意圖分類、情感識別等）上進行微調。

高效性能：論文中提到，在 LibriSpeech 的 100h - 960h 半監督設置下，與 wav2vec 2.0 相比，SEW 實現了 1.9 倍的推理加速，字錯誤率相對降低了 13.5%。在相似的推理時間下，SEW 在不同模型大小上可將字錯誤率降低 25 - 50%。
可擴展性：適用於多種語音相關的下游任務。

論文標題：Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition
作者：Felix Wu, Kwangyoun Kim, Jing Pan, Kyu Han, Kilian Q. Weinberger, Yoav Artzi
摘要：本文研究了用於自動語音識別（ASR）的預訓練模型中的性能 - 效率權衡問題。我們專注於 wav2vec 2.0，並形式化了幾種影響模型性能和效率的架構設計。綜合我們的所有觀察結果，我們引入了 SEW（Squeezed and Efficient Wav2vec），這是一種預訓練模型架構，在各種訓練設置下，在性能和效率方面都有顯著改進。例如，在 LibriSpeech 的 100h - 960h 半監督設置下，與 wav2vec 2.0 相比，SEW 實現了 1.9 倍的推理加速，字錯誤率相對降低了 13.5%。在相似的推理時間下，SEW 在不同模型大小上可將字錯誤率降低 25 - 50%。