🚀 UniSpeech - SAT - Base - 微調 - 100h - Libri
這是一個基於 微軟的UniSpeech 的語音識別模型。它是在16kHz採樣的語音音頻上,對 unispeech - sat - base模型 在100小時的LibriSpeech數據集上進行微調得到的。使用該模型時,請確保輸入的語音也採樣為16kHz。
🚀 快速開始
模型信息
屬性 |
詳情 |
模型類型 |
基於UniSpeech - SAT - Base微調的語音識別模型 |
訓練數據 |
100小時的 LibriSpeech |
模型使用
要對音頻文件進行轉錄,該模型可以作為獨立的聲學模型使用,示例代碼如下:
from transformers import Wav2Vec2Processor, UniSpeechSatForCTC
from datasets import load_dataset
import torch
processor = Wav2Vec2Processor.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")
model = UniSpeechSatForCTC.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
📚 詳細文檔
論文信息
論文:UNISPEECH - SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE - TRAINING
作者:Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu
摘要
自監督學習(SSL)是語音處理領域的一個長期目標,因為它利用了大規模的無標籤數據,避免了大量的人工標註。近年來,自監督學習在語音識別中的應用取得了巨大成功,但在將SSL應用於說話人特徵建模方面的探索有限。在本文中,我們旨在改進現有的用於說話人表示學習的SSL框架。我們引入了兩種方法來增強無監督說話人信息提取。首先,我們將多任務學習應用於當前的SSL框架,將基於話語的對比損失與SSL目標函數相結合。其次,為了更好地區分說話人,我們提出了一種用於數據增強的話語混合策略,在訓練過程中無監督地創建額外的重疊話語並將其納入訓練。我們將所提出的方法集成到HuBERT框架中。在SUPERB基準測試上的實驗結果表明,所提出的系統在通用表示學習方面取得了最先進的性能,特別是在面向說話人識別的任務中。我們進行了消融實驗,驗證了每個提出方法的有效性。最後,我們將訓練數據集擴展到9.4萬小時的公共音頻數據,並在所有SUPERB任務中進一步提高了性能。
原始模型
原始模型可在 https://github.com/microsoft/UniSpeech/tree/main/UniSpeech - SAT 找到。
📄 許可證
官方許可證可在 此處 找到。

🔗 貢獻者
該模型由 cywang 和 patrickvonplaten 貢獻。