wav2vec2-large-robust-ft-swbd-300h開源模型 - 精準優化電話語音識別

首頁

Wav2vec2 Large Robust Ft Swbd 300h

由facebook開發

該模型是Facebook Wav2Vec2-Large-Robust的微調版本，專門針對電話語音識別任務優化，使用300小時Switchboard電話語音語料庫進行微調。

語音識別

Transformers

英語開源協議:Apache-2.0 #電話語音識別 #多領域預訓練 #魯棒性聲學模型

下載量 2,543

發布時間 : 3/2/2022

模型概述

一個針對電話語音場景優化的自動語音識別(ASR)模型，在噪聲環境下表現優異。支持16kHz採樣率的音頻輸入。

模型特點

多領域預訓練

預訓練階段整合了有聲書(Libri-Light)、朗讀語音(CommonVoice)和電話語音(Switchboard/Fisher)多領域數據

噪聲魯棒性

專門針對含噪聲的電話語音場景優化，在Switchboard電話語料上微調300小時

跨領域適應

論文證明使用目標領域未標註數據預訓練可顯著提升模型在領域內外數據上的表現

模型能力

英語語音轉文本

噪聲環境語音識別

電話語音轉錄

使用案例

語音轉錄服務

客服電話自動轉錄

將客服中心的通話內容自動轉為文字記錄

在噪聲電話環境下保持較高識別準確率

語音分析

通話內容分析

對商業或研究場景中的電話錄音進行內容分析

🚀 Wav2Vec2-Large-Robust在Switchboard上微調

本模型基於Facebook的Wav2Vec2，是在wav2vec2-large-robust模型基礎上進行微調得到的。它可用於語音識別任務，能處理多種語音數據，在嘈雜的電話語音數據上表現出色。

🚀 快速開始

本模型是 wav2vec2-large-robust 模型的微調版本。它在以下數據集上進行了預訓練：

Libri-Light：來自LibriVox項目的開源有聲書籍，是乾淨的朗讀音頻數據。
CommonVoice：眾包收集的音頻數據，包含朗讀的文本片段。
Switchboard：電話語音語料庫，是嘈雜的電話數據。
Fisher：對話式電話語音，也是嘈雜的電話數據。

隨後，該模型在300小時的 Switchboard 電話語音語料庫（嘈雜的電話數據）上進行了微調。

使用該模型時，請確保輸入的語音採樣率為16Khz。

相關論文：Paper Robust Wav2Vec2

作者：Wei - Ning Hsu, Anuroop Sriram, Alexei Baevski, Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Jacob Kahn, Ann Lee, Ronan Collobert, Gabriel Synnaeve, Michael Auli

摘要

語音表徵的自監督學習是一個非常活躍的研究領域，但大多數工作都集中在單一領域，例如有大量標註和未標註數據的朗讀有聲書籍。在本文中，我們探索了更通用的設置，即預訓練的未標註數據領域與微調的標註數據領域不同，而這兩者又可能與測試數據領域不同。我們的實驗表明，在預訓練期間使用目標領域數據可在各種設置下大幅提高性能。在大規模競爭設置中，我們發現對未標註的領域內數據進行預訓練可使在領域內和領域外標註數據上訓練的模型之間的差距縮小66% - 73%。這具有明顯的實際意義，因為獲取未標註的目標領域數據比獲取標註數據容易得多。此外，我們發現對多個領域進行預訓練可提高在訓練期間未見過的領域上的泛化性能。代碼和模型將在指定的URL上提供。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

✨ 主要特性

多領域預訓練：在多個不同的語音數據集上進行預訓練，包括有聲書籍、眾包語音和電話語音等，增強了模型的泛化能力。
特定領域微調：在Switchboard電話語音語料庫上進行微調，使其在嘈雜的電話語音識別任務中表現出色。

📦 安裝指南

暫未提供安裝步驟相關內容，若有需要，可參考原始模型的安裝說明。

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# 加載模型和處理器
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-robust-ft-swbd-300h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-robust-ft-swbd-300h")

# 加載虛擬數據集並讀取音頻文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 進行分詞
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # 批量大小為1

# 獲取對數幾率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)