data2vec-audio-large-10m開源音頻大模型 - 適配語音任務，免費體驗語音處理

首頁

Data2vec Audio Large 10m

由facebook開發

Data2Vec是一個通用的自監督學習框架，適用於語音、視覺和語言任務。該音頻大模型基於Librispeech的10分鐘數據進行預訓練和微調，適用於16kHz採樣的語音音頻。

語音識別

Transformers

英語開源協議:Apache-2.0 #自監督語音識別 #多模態統一框架 #16kHz音頻處理

下載量 19

發布時間 : 4/2/2022

模型概述

Data2Vec-Audio-Large-10m是一個基於自監督學習的語音處理模型，主要用於語音識別任務。它採用統一的框架處理不同模態的數據，通過預測完整輸入數據的潛在表示來實現高效學習。

模型特點

統一的自監督學習框架

採用相同的學習方法處理語音、自然語言處理和計算機視覺任務，實現了跨模態的統一學習。

上下文相關的潛在表示預測

不同於預測局部性質的目標，該模型預測包含整個輸入信息的上下文相關潛在表示。

高性能表現

在語音識別、圖像分類和自然語言理解等主要基準測試中達到最優或競爭性表現。

模型能力

語音識別

音頻特徵提取

使用案例

語音處理

語音轉文本

將語音音頻轉換為文本內容

高準確率的語音識別結果

🚀 Data2Vec-Audio-Large-10m

Data2Vec-Audio-Large-10m是一個在16kHz採樣的語音音頻上，基於Librispeech數據集10分鐘數據進行預訓練和微調的大型模型。使用該模型時，請確保輸入的語音也採樣於16kHz。

🚀 快速開始

本模型是基於Facebook的Data2Vec框架開發的。你可以將其作為獨立的聲學模型來轉錄音頻文件。使用時，要保證輸入語音的採樣率為16kHz。

✨ 主要特性

通用自監督學習框架：Data2Vec框架可在語音、NLP或計算機視覺領域使用相同的學習方法，朝著通用自監督學習邁進了一步。
預測上下文潛在表徵：該模型預測包含整個輸入信息的上下文潛在表徵，而非特定模態的局部目標。
優異性能：在語音識別、圖像分類和自然語言理解等主要基準測試中，展現出了新的最優水平或與主流方法相媲美的性能。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於Data2Vec框架的語音模型
訓練數據	Librispeech數據集10分鐘的16kHz採樣語音音頻

論文信息

論文鏈接：Paper
作者：Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli
摘要：雖然自監督學習的總體思路在不同模態間是相同的，但實際的算法和目標卻差異很大，因為它們是針對單一模態開發的。為了更接近通用自監督學習，我們提出了data2vec框架，該框架在語音、NLP或計算機視覺領域使用相同的學習方法。其核心思想是在自蒸餾設置中，使用標準的Transformer架構，基於輸入的掩碼視圖來預測整個輸入數據的潛在表徵。與預測特定模態的局部目標（如單詞、視覺標記或人類語音單元）不同，data2vec預測包含整個輸入信息的上下文潛在表徵。在語音識別、圖像分類和自然語言理解等主要基準測試中的實驗表明，該方法達到了新的最優水平或與主流方法具有競爭力。

預訓練方法

model image

更多信息，請參考官方論文。

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Data2VecForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("facebook/data2vec-audio-large-10m")
model = Data2VecForCTC.from_pretrained("facebook/data2vec-audio-large-10m")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1

# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)