UniSpeech開源模型 - 免費支持結合多數據預訓練及西班牙語音素識別

首頁

Unispeech 1350 En 168 Es Ft 1h

由microsoft開發

UniSpeech是一個統一語音表徵學習模型，結合標註與無標註數據進行預訓練，特別針對西班牙語音素識別進行了微調。

語音識別

Transformers

西班牙語#西班牙語音素識別 #多任務語音表徵 #跨語言遷移

下載量 19

發布時間 : 3/2/2022

模型概述

該模型基於16kHz採樣的語音音頻和音素標籤進行預訓練，並在1小時西班牙語音素數據上微調，主要用於音素分類任務。

模型特點

統一表徵學習

通過多任務學習同時進行監督式音素CTC學習和音素感知對比自監督學習

跨語言能力

在CommonVoice語料庫上表現出良好的跨語言表徵學習效果

領域適應性強

在領域遷移語音識別任務中相比之前方法實現了6%的相對詞錯誤率下降

模型能力

語音識別

音素分類

跨語言語音處理

使用案例

語音識別

西班牙語音素識別

將西班牙語語音轉換為音素序列

相比自監督預訓練和監督遷移學習，分別最高可降低13.4%和17.8%的相對音素錯誤率

🚀 UniSpeech-Large-plus 西班牙語版

UniSpeech-Large-plus 西班牙語版是基於語音音頻和音素標籤預訓練的大模型，在西班牙語音素上進行了微調。該模型可用於語音識別任務，能有效處理西班牙語語音輸入。

🚀 快速開始

此為在音素分類上進行了微調的語音模型。在使用該模型時，請確保語音輸入採樣率為 16kHz，並將文本轉換為音素序列。

💻 使用示例

基礎用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F

model_id = "microsoft/unispeech-1350-en-168-es-ft-1h"

sample = next(iter(load_dataset("common_voice", "es", split="test", streaming=True)))
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

prediction_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(prediction_ids)
# -> gives:
# b j e n i k e ɾ ɾ e ɣ a l o a s a β ɾ i ɾ p ɾ i m e ɾ o'
# for: Bien . ¿ y qué regalo vas a abrir primero ?

📚 詳細文檔

模型信息

模型來源：Microsoft's UniSpeech
原模型地址：https://github.com/microsoft/UniSpeech/tree/main/UniSpeech
論文鏈接：Paper: UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data
作者：Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang

論文摘要

本文提出了一種名為 UniSpeech 的統一預訓練方法，用於利用有標籤和無標籤數據學習語音表徵。在該方法中，監督音素 CTC 學習和音素感知對比自監督學習以多任務學習的方式進行。所得到的表徵能夠捕捉與音素結構更相關的信息，並提高跨語言和領域的泛化能力。我們在公共 CommonVoice 語料庫上評估了 UniSpeech 用於跨語言表徵學習的有效性。結果表明，與自監督預訓練和監督遷移學習相比，UniSpeech 在語音識別方面的相對音素錯誤率分別最多降低了 13.4% 和 17.8%（在所有測試語言上平均）。在領域轉移語音識別任務中，UniSpeech 的可遷移性也得到了證明，與之前的方法相比，相對詞錯誤率降低了 6%。

👥 貢獻者

該模型由 cywang 和 patrickvonplaten 貢獻。

📄 許可證

官方許可證可在此處查看。

📊 官方結果

查看 UniSpeeech-L^{+} - es 的結果：

design

📋 信息表格

屬性	詳情
模型類型	語音識別模型，在音素分類上微調
訓練數據	16kHz 採樣的語音音頻和音素標籤，在 1 小時的西班牙語音素上微調
數據集	CommonVoice
標籤	音頻、自動語音識別