wav2vec2-large-robust-ft-libri-960h開源語音識別模型

首頁

Wav2vec2 Large Robust Ft Libri 960h

由facebook開發

該模型是Facebook Wav2Vec2的微調版本，專注於語音識別任務，在多種語音數據上預訓練並在Librispeech上微調，具有魯棒性強的特點。

語音識別

Transformers

英語開源協議:Apache-2.0 #多領域語音識別 #魯棒性音頻處理 #16kHz採樣率適配

下載量 161.65k

發布時間 : 3/2/2022

模型概述

這是一個自動語音識別(ASR)模型，基於wav2vec2-large-robust架構，在多種語音數據上預訓練並在960小時的Librispeech數據上微調，適用於英語語音轉文本任務。

模型特點

多領域預訓練

模型在多種語音數據上預訓練，包括朗讀音頻(Libri-Light)、眾包語音(CommonVoice)和電話語音(Switchboard/Fisher)，增強了魯棒性。

目標領域微調

在960小時的Librispeech朗讀音頻數據上進行了微調，提高了在朗讀語音場景下的識別準確率。

魯棒性強

專門設計用於處理不同領域的語音數據，在領域內外數據上表現良好，性能差距縮小66%-73%。

模型能力

英語語音識別

朗讀音頻轉錄

電話語音轉錄

眾包語音轉錄

使用案例

語音轉錄

有聲書轉錄

將朗讀的有聲書音頻轉換為文本

在Librispeech測試集上表現良好

電話語音轉錄

轉錄電話通話內容

在Switchboard和Fisher數據集上表現良好

語音助手

語音指令識別

識別用戶語音指令並轉換為文本

適用於多種語音環境

🚀 Wav2Vec2-Large-Robust在Librispeech上微調版

本項目基於Facebook的Wav2Vec2模型。此模型是wav2vec2-large-robust模型的微調版本，在多個數據集上進行了預訓練和微調，可用於語音識別任務，為語音處理領域提供了強大的工具。

✨ 主要特性

多數據集預訓練：該模型在多個數據集上進行了預訓練，包括Libri-Light（來自LibriVox項目的開源有聲書籍，乾淨的朗讀音頻數據）、CommonVoice（眾包收集的音頻數據，朗讀的文本片段）、Switchboard（電話語音語料庫，嘈雜的電話數據）和Fisher（對話式電話語音，嘈雜的電話數據）。
特定數據集微調：在960小時的Librispeech（開源朗讀音頻數據）上進行了微調。
採樣率要求：使用模型時，確保語音輸入的採樣率為16Khz。

📚 詳細文檔

模型背景

該模型基於Facebook的Wav2Vec2，是一種自監督學習的語音表示模型。自監督學習在語音表示學習領域是一個非常活躍的研究方向，但大多數工作都集中在單一領域，如朗讀有聲書籍，因為這些領域存在大量有標籤和無標籤的數據。

研究內容

本文探索了更通用的設置，即預訓練的無標籤數據的領域與微調的有標籤數據的領域不同，而這又可能與測試數據的領域不同。實驗表明，在預訓練期間使用目標領域數據可以在各種設置下顯著提高性能。在大規模競爭設置中，在無標籤的領域內數據上進行預訓練可以將在領域內和領域外有標籤數據上訓練的模型之間的差距縮小66%-73%。這具有明顯的實際意義，因為獲取無標籤的目標領域數據比獲取有標籤的數據要容易得多。此外，在多個領域上進行預訓練可以提高在訓練期間未見過的領域上的泛化性能。

論文信息

論文標題：Paper Robust Wav2Vec2
作者：Wei-Ning Hsu, Anuroop Sriram, Alexei Baevski, Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Jacob Kahn, Ann Lee, Ronan Collobert, Gabriel Synnaeve, Michael Auli
摘要：語音表示的自監督學習一直是一個非常活躍的研究領域，但大多數工作都集中在單一領域，如朗讀有聲書籍，因為這些領域存在大量有標籤和無標籤的數據。在本文中，我們探索了更通用的設置，即預訓練的無標籤數據的領域與微調的有標籤數據的領域不同，而這又可能與測試數據的領域不同。我們的實驗表明，在預訓練期間使用目標領域數據可以在各種設置下顯著提高性能。在大規模競爭設置中，我們表明在無標籤的領域內數據上進行預訓練可以將在領域內和領域外有標籤數據上訓練的模型之間的差距縮小66%-73%。這具有明顯的實際意義，因為獲取無標籤的目標領域數據比獲取有標籤的數據要容易得多。此外，我們發現在多個領域上進行預訓練可以提高在訓練期間未見過的領域上的泛化性能。代碼和模型將在這個URL上提供。

原模型地址

原模型可在https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import soundfile as sf
import torch

# 加載模型和處理器
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-robust-ft-libri-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-robust-ft-libri-960h")

# 定義讀取音頻文件的函數
def map_to_array(batch):
    speech, _ = sf.read(batch["file"])
    batch["speech"] = speech
    return batch

# 加載虛擬數據集並讀取音頻文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
ds = ds.map(map_to_array)

# 分詞
input_values = processor(ds["speech"][:2], return_tensors="pt", padding="longest").input_values  # 批量大小為1

# 獲取對數概率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

📄 許可證

本模型使用的許可證為apache-2.0。

📦 數據集信息

屬性	詳情
訓練數據集	Libri-Light、CommonVoice、Switchboard、Fisher、Librispeech
標籤	語音、音頻、自動語音識別
示例	Librispeech sample 1、Librispeech sample 2