wav2vec2 - lv - 60 - espeak - cv - ft開源模型 - 免費實現多語言音素識別

首頁

Wav2vec2 Lv 60 Espeak Cv Ft

由facebook開發

該模型是基於Wav2Vec2-Large-LV60預訓練模型，在CommonVoice數據集上進行微調，用於多語言音素識別。

語音識別

Transformers

其他開源協議:Apache-2.0 #多語言音素識別 #零樣本遷移學習 #語音轉音素

下載量 18.77k

發布時間 : 3/2/2022

模型概述

該模型主要用於多語言的音素識別任務，能夠將語音輸入轉換為音素標籤。需要配合音素到單詞的映射詞典使用。

模型特點

多語言支持

支持多種語言的音素識別

基於CommonVoice微調

在CommonVoice數據集上進行微調，提高了識別準確性

音素級別識別

輸出為音素標籤，需要配合詞典轉換為單詞

模型能力

語音識別

音素識別

多語言處理

使用案例

語音轉寫

多語言語音轉錄

將多種語言的語音轉換為音素標籤

可進一步轉換為文字

語音學研究

音素分析

用於分析不同語言的音素分佈和特徵

🚀 Wav2Vec2-Large-LV60在多語言Common Voice上微調

本項目的檢查點藉助了預訓練檢查點 wav2vec2-large-lv60，並在 CommonVoice 上進行微調，以識別多種語言的音素標籤。

使用該模型時，請確保您的語音輸入採樣率為16kHz。請注意，該模型輸出的是一串音素標籤。需要使用一個將音素標籤映射到單詞的字典，才能將音素輸出標籤映射為輸出單詞。

論文：簡單有效的零樣本跨語言音素識別

作者：Qiantong Xu、Alexei Baevski、Michael Auli

摘要自訓練、自監督預訓練和無監督學習的最新進展，使得無需任何標註數據的語音識別系統也能有出色表現。然而，在許多情況下，相關語言的標註數據並未被這些方法充分利用。本文通過微調多語言預訓練的wav2vec 2.0模型來轉錄未見語言，擴展了先前關於零樣本跨語言遷移學習的工作。這是通過使用發音特徵將訓練語言的音素映射到目標語言來實現的。實驗表明，這種簡單的方法顯著優於先前引入特定任務架構且僅使用單語言預訓練模型部分內容的工作。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

🚀 快速開始

本模型可作為獨立的聲學模型來轉錄音頻文件，具體使用方法如下。

💻 使用示例

基礎用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values

# retrieve logits
with torch.no_grad():
  logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
# => should give ['m ɪ s t ɚ k w ɪ l t ɚ ɹ ɪ z ð ɪ ɐ p ɑː s əl ʌ v ð ə m ɪ d əl k l æ s ᵻ z æ n d w iː ɑːɹ ɡ l æ d t ə w ɛ l k ə m h ɪ z ɡ ɑː s p əl']