unispeech - sat - base - 100h - libri - ft開源模型 - 精準識別語音助力溝通高效

首頁

Unispeech Sat Base 100h Libri Ft

由microsoft開發

基於UniSpeech-SAT基礎模型，在LibriSpeech語音數據上進行了100小時微調的自動語音識別模型

語音識別

Transformers

英語開源協議:Apache-2.0 #說話人感知語音識別 #多任務自監督學習 #16kHz音頻處理

下載量 643

發布時間 : 3/2/2022

模型概述

這是一個專門用於自動語音識別(ASR)的模型，基於微軟的UniSpeech-SAT架構，通過自監督學習增強說話人表徵能力，適用於英語語音轉文本任務

模型特點

說話人感知預訓練

通過結合語句級對比損失與SSL目標函數，增強說話人表徵學習能力

語句混合數據增強

採用創新的語句混合策略，在訓練中無監督生成重疊語句，提升模型區分說話人的能力

大規模預訓練

原始模型使用9.4萬小時公開音頻數據進行預訓練，具有強大的泛化能力

模型能力

英語語音識別

說話人特徵提取

16kHz採樣音頻處理

使用案例

語音轉文本

語音轉錄

將英語語音內容轉換為文本

在LibriSpeech數據集上表現良好

語音分析

說話人識別

提取語音中的說話人特徵

論文顯示在SUPERB基準測試中表現優異

🚀 UniSpeech - SAT - Base - 微調 - 100h - Libri

這是一個基於微軟的UniSpeech 的語音識別模型。它是在16kHz採樣的語音音頻上，對 unispeech - sat - base模型在100小時的LibriSpeech數據集上進行微調得到的。使用該模型時，請確保輸入的語音也採樣為16kHz。

🚀 快速開始

模型信息

屬性	詳情
模型類型	基於UniSpeech - SAT - Base微調的語音識別模型
訓練數據	100小時的 LibriSpeech

模型使用

要對音頻文件進行轉錄，該模型可以作為獨立的聲學模型使用，示例代碼如下：

from transformers import Wav2Vec2Processor, UniSpeechSatForCTC
from datasets import load_dataset
import torch

# 加載模型和分詞器
processor = Wav2Vec2Processor.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")
model = UniSpeechSatForCTC.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")

# 加載虛擬數據集
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 分詞
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # 批量大小為1

# 獲取對數幾率
logits = model(input_values).logits

# 取最大值並解碼
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

📚 詳細文檔

論文信息

論文：UNISPEECH - SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE - TRAINING

作者：Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu

摘要

自監督學習（SSL）是語音處理領域的一個長期目標，因為它利用了大規模的無標籤數據，避免了大量的人工標註。近年來，自監督學習在語音識別中的應用取得了巨大成功，但在將SSL應用於說話人特徵建模方面的探索有限。在本文中，我們旨在改進現有的用於說話人表示學習的SSL框架。我們引入了兩種方法來增強無監督說話人信息提取。首先，我們將多任務學習應用於當前的SSL框架，將基於話語的對比損失與SSL目標函數相結合。其次，為了更好地區分說話人，我們提出了一種用於數據增強的話語混合策略，在訓練過程中無監督地創建額外的重疊話語並將其納入訓練。我們將所提出的方法集成到HuBERT框架中。在SUPERB基準測試上的實驗結果表明，所提出的系統在通用表示學習方面取得了最先進的性能，特別是在面向說話人識別的任務中。我們進行了消融實驗，驗證了每個提出方法的有效性。最後，我們將訓練數據集擴展到9.4萬小時的公共音頻數據，並在所有SUPERB任務中進一步提高了性能。