data2vec-audio-base-100h開源音頻模型 - 適用於多任務語音處理應用

首頁

Data2vec Audio Base 100h

由facebook開發

Data2Vec是一個通用的自監督學習框架，適用於語音、視覺和語言任務。該音頻基礎模型基於Librispeech語音音頻進行了100小時的預訓練和微調。

語音識別

Transformers

英語開源協議:Apache-2.0 #自監督語音識別 #多模態統一框架 #16kHz音頻處理

下載量 4,369

發布時間 : 3/2/2022

模型概述

Data2Vec-Audio是一個基於自監督學習的語音處理模型，採用統一的框架處理不同模態的數據。該模型通過預測完整輸入數據的潛在表示進行訓練，適用於語音識別等任務。

模型特點

通用自監督學習框架

採用相同的學習方法處理語音、自然語言處理和計算機視覺任務，實現跨模態的統一學習。

上下文潛在表示預測

不同於預測局部性質的目標，模型預測包含整個輸入信息的上下文潛在表示。

高性能表現

在語音識別等主要基準測試中，性能達到新的最優水平或與主流方法相當。

模型能力

語音識別

音頻特徵提取

使用案例

語音處理

語音轉文本

將語音音頻轉換為文本轉錄

高準確率的語音識別結果

語音數據分析

從語音中提取特徵用於進一步分析

獲取語音內容的潛在表示

🚀 Data2Vec-Audio-Base-100h

Data2Vec-Audio-Base-100h是一個基於16kHz採樣語音音頻，在100小時的Librispeech數據集上進行預訓練和微調的基礎模型。它源自Facebook的Data2Vec框架，可用於語音識別等任務。

🚀 快速開始

本模型可作為獨立的聲學模型對音頻文件進行轉錄。使用時，請確保輸入的語音也以16kHz採樣。

✨ 主要特性

跨模態通用性：基於Facebook的Data2Vec框架，該框架使用相同的學習方法處理語音、自然語言處理或計算機視覺任務，朝著通用的自監督學習邁進了一步。
預測上下文潛在表徵：與預測特定模態目標（如單詞、視覺標記或人類語音單元）不同，data2vec預測包含整個輸入信息的上下文潛在表徵。
優異性能：在語音識別、圖像分類和自然語言理解等主要基準測試中，展現了新的技術水平或與主流方法相媲美的性能。

📚 詳細文檔

模型信息

模型鏈接：Facebook's Data2Vec
論文鏈接：Paper
原模型倉庫：https://github.com/pytorch/fairseq/tree/main/examples/data2vec

作者信息

作者包括Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu和Michael Auli。

摘要內容

自監督學習的總體思路在不同模態間是相同的，但實際的算法和目標卻差異很大，因為它們是針對單一模態開發的。為了更接近通用的自監督學習，我們提出了data2vec框架，該框架對語音、自然語言處理或計算機視覺使用相同的學習方法。其核心思想是在使用標準Transformer架構的自蒸餾設置中，基於輸入的掩碼視圖來預測整個輸入數據的潛在表徵。data2vec預測的是包含整個輸入信息的上下文潛在表徵，而非特定模態的局部目標，如單詞、視覺標記或人類語音單元。在語音識別、圖像分類和自然語言理解等主要基準測試上的實驗表明，該方法達到了新的技術水平或與主流方法具有競爭力。

預訓練方法

模型圖片

更多信息請參考官方論文。

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Data2VecForCTC
from datasets import load_dataset
import torch

# 加載模型和處理器
processor = Wav2Vec2Processor.from_pretrained("facebook/data2vec-audio-base-100h")
model = Data2VecForCTC.from_pretrained("facebook/data2vec-audio-base-100h")

# 加載虛擬數據集並讀取音頻文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 進行分詞
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # 批量大小為1

# 獲取對數幾率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)