data2vec-audio-large開源語音模型 - 免費用於語音識別等任務

首頁

Data2vec Audio Large

由facebook開發

Data2Vec-Audio-Large是基於16kHz採樣語音音頻預訓練的大型模型，採用自監督學習框架，適用於語音識別等任務。

語音識別

Transformers

英語開源協議:Apache-2.0 #自監督學習 #語音表徵學習 #多模態統一框架

下載量 97

發布時間 : 4/2/2022

模型概述

該模型是Facebook Data2Vec框架的音頻實現版本，通過自蒸餾方式學習語音數據的潛在表徵，可應用於語音識別等任務。

模型特點

統一的自監督學習框架

採用Data2Vec框架，可同時適用於語音、NLP和計算機視覺領域

上下文潛在表徵預測

不同於預測局部目標，模型預測包含整個輸入信息的上下文潛在表徵

16kHz音頻支持

專門針對16kHz採樣的語音音頻進行優化

模型能力

語音特徵提取

自監督學習

語音識別基礎模型

使用案例

語音處理

語音識別系統

作為基礎模型用於構建語音識別系統

在語音識別基準測試中達到最優或超越主流方案

語音特徵提取

提取語音的高級特徵表示

🚀 數據2向量音頻大模型（Data2Vec-Audio-Large）

Data2Vec-Audio-Large是一個在16kHz採樣的語音音頻上進行預訓練的大模型。該模型為語音處理提供了強大的支持，在語音識別等任務中具有潛在的應用價值。

🚀 快速開始

本模型是在16kHz採樣的語音音頻上進行預訓練的。在使用該模型時，請確保您的語音輸入也是以16kHz採樣的。

⚠️ 重要提示

此模型沒有分詞器，因為它僅在音頻上進行了預訓練。若要將此模型用於語音識別，則需要創建一個分詞器，並在帶標籤的文本數據上對模型進行微調。有關如何微調模型的詳細解釋，請查看此博客。

✨ 主要特性

跨模態通用性：Facebook的Data2Vec 框架使用相同的學習方法處理語音、自然語言處理或計算機視覺任務，向通用自監督學習邁進了一步。
預測上下文潛在表示：模型預測包含整個輸入信息的上下文潛在表示，而非特定模態的局部目標（如單詞、視覺標記或人類語音單元）。
優異性能：在語音識別、圖像分類和自然語言理解的主要基準測試中，展現出了新的技術水平或與主流方法相競爭的性能。

📚 詳細文檔

論文信息

論文鏈接：Paper
作者：Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli

摘要

雖然自監督學習的總體思想在不同模態間是相同的，但實際的算法和目標卻差異很大，因為它們是針對單一模態開發的。為了更接近通用自監督學習，我們提出了Data2Vec框架，該框架對語音、自然語言處理或計算機視覺使用相同的學習方法。核心思想是在使用標準Transformer架構的自蒸餾設置中，基於輸入的掩碼視圖預測完整輸入數據的潛在表示。Data2Vec預測的是包含整個輸入信息的上下文潛在表示，而不是預測本質上是局部的特定模態目標，如單詞、視覺標記或人類語音單元。在語音識別、圖像分類和自然語言理解的主要基準測試上的實驗表明，該方法達到了新的技術水平，或與主流方法具有競爭力。

預訓練方法

模型圖像

更多信息，請查看官方論文。

使用方法

有關如何微調模型的更多信息，請參閱此筆記本。

模型相關信息

屬性	詳情
數據集	librispeech_asr
標籤	speech
模型類型	基於Data2Vec框架的語音預訓練模型
原始模型地址	https://github.com/pytorch/fairseq/tree/main/examples/data2vec