data2vec-audio-large-100h開源語音模型 - 支持多領域任務，經100小時預訓練

首頁

Data2vec Audio Large 100h

由facebook開發

Data2Vec是一個通用的自監督學習框架，適用於語音、自然語言處理和計算機視覺任務。該模型是基於Librispeech語音音頻進行100小時預訓練和微調的大模型。

語音識別

Transformers

英語開源協議:Apache-2.0 #自監督語音識別 #多模態統一框架 #16kHz音頻適配

下載量 46

發布時間 : 4/2/2022

模型概述

Data2Vec-Audio-Large-100h是一個基於自監督學習的語音識別模型，能夠處理16kHz採樣的語音音頻輸入，並輸出對應的文本轉錄。

模型特點

通用自監督學習框架

Data2Vec框架能夠以相同的學習方法處理語音、自然語言處理和計算機視覺任務，實現跨模態的統一學習。

自蒸餾設置

模型基於輸入數據的掩碼視圖，利用標準Transformer架構預測完整輸入數據的潛在表徵，而非局部性質的目標。

高性能

在語音識別、圖像分類和自然語言理解等主要基準測試中，該方法達到了新的最優性能或與主流方法競爭的水平。

模型能力

語音識別

音頻轉錄

使用案例

語音轉錄

音頻文件轉錄

將16kHz採樣的語音音頻文件轉錄為文本。

高準確率的文本輸出

🚀 Data2Vec-Audio-Large-100h

Data2Vec-Audio-Large-100h是一個在16kHz採樣的語音音頻上，基於100小時的Librispeech數據集進行預訓練和微調的大型模型。使用該模型時，請確保輸入的語音也是16kHz採樣的。

🚀 快速開始

本模型可作為獨立的聲學模型來轉錄音頻文件，示例代碼如下：

 from transformers import Wav2Vec2Processor, Data2VecForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/data2vec-audio-large-100h")
 model = Data2VecForCTC.from_pretrained("facebook/data2vec-audio-large-100h")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"],, return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)

✨ 主要特性

跨模態通用框架：Facebook的Data2Vec 提供了一個通用的自監督學習框架，可用於語音、自然語言處理和計算機視覺等領域。
預測上下文潛在表示：該模型不預測特定模態的目標（如單詞、視覺標記或人類語音單元），而是預測包含整個輸入信息的上下文潛在表示。
優異性能：在語音識別、圖像分類和自然語言理解等主要基準測試中，展現了新的技術水平或與主流方法相競爭的性能。

📚 詳細文檔

論文摘要

雖然自監督學習的總體思路在不同模態之間是相同的，但實際的算法和目標卻有很大差異，因為它們是針對單一模態開發的。為了更接近通用的自監督學習，我們提出了Data2Vec框架，該框架在語音、NLP或計算機視覺中使用相同的學習方法。其核心思想是在使用標準Transformer架構的自蒸餾設置中，基於輸入的掩碼視圖來預測整個輸入數據的潛在表示。Data2Vec不預測特定模態的目標（如單詞、視覺標記或人類語音單元，這些本質上是局部的），而是預測包含整個輸入信息的上下文潛在表示。在語音識別、圖像分類和自然語言理解等主要基準測試上的實驗表明，該方法達到了新的技術水平，或與主流方法具有競爭力。

論文鏈接：Paper

作者：Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli