wav2vec2-xlsr-53-espeak-cv-ft開源模型 - 支持多語言音素標籤識別

首頁

Wav2vec2 Xlsr 53 Espeak Cv Ft

由facebook開發

該模型是基於wav2vec2-large-xlsr-53預訓練模型在CommonVoice數據集上微調的多語言音素識別模型，支持多種語言的音素標籤識別。

語音識別

Transformers

開源協議:Apache-2.0 #多語言音素識別 #零樣本遷移學習 #語音轉音素

下載量 315.39k

發布時間 : 3/2/2022

模型概述

該模型用於自動語音識別(ASR)任務，特別針對多語言音素識別進行了優化。它可以將16kHz採樣率的語音輸入轉換為音素標籤序列。

模型特點

多語言音素識別

能夠識別多種語言的音素標籤，適用於跨語言語音識別任務

基於CommonVoice微調

在CommonVoice數據集上進行了微調，提高了對真實語音數據的識別能力

零樣本跨語言遷移

支持零樣本跨語言遷移學習，可以處理未見過的語言

模型能力

語音識別

音素識別

多語言處理

零樣本跨語言遷移

使用案例

語音轉錄

多語言音素轉錄

將語音轉換為音素序列，適用於需要音素級別分析的應用

輸出為音素標籤序列

語音學研究

跨語言音素分析

研究不同語言間的音素分佈和差異

🚀 Wav2Vec2-Large-XLSR-53 在多語言 Common Voice 上微調

本項目基於預訓練模型 wav2vec2-large-xlsr-53，並在 CommonVoice 數據集上進行微調，以識別多種語言的音素標籤。

在使用該模型時，請確保輸入的語音採樣率為 16kHz。請注意，模型輸出的是一串音素標籤，需要使用一個將音素標籤映射到單詞的字典，才能將音素輸出標籤轉換為輸出單詞。

論文：Simple and Effective Zero-shot Cross-lingual Phoneme Recognition

作者：Qiantong Xu、Alexei Baevski、Michael Auli

摘要近期，自訓練、自監督預訓練和無監督學習的進展使得無需任何標註數據的語音識別系統也能有出色表現。然而，在許多情況下，相關語言的標註數據並未被這些方法充分利用。本文通過微調多語言預訓練的 wav2vec 2.0 模型來轉錄未見語言，擴展了先前關於零樣本跨語言遷移學習的工作。具體做法是利用發音特徵將訓練語言的音素映射到目標語言。實驗表明，這種簡單的方法顯著優於先前引入特定任務架構且僅使用單語言預訓練模型部分組件的工作。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

🚀 快速開始

本模型可作為獨立的聲學模型來轉錄音頻文件，使用方法如下：

💻 使用示例

基礎用法

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values
 
 # retrieve logits
 with torch.no_grad():
   logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)
 # => should give ['m ɪ s t ɚ k w ɪ l t ɚ ɪ z ð ɪ ɐ p ɑː s əl l ʌ v ð ə m ɪ d əl k l æ s ɪ z æ n d w iː aʊ ɡ l æ d t ə w ɛ l k ə m h ɪ z ɡ ɑː s p ə']

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於預訓練的 wav2vec2-large-xlsr-53 微調的語音識別模型
訓練數據	CommonVoice 多語言數據集
標籤	語音、音頻、自動語音識別、音素識別
許可證	Apache-2.0

示例音頻

注意事項

⚠️ 重要提示

使用模型時，請確保語音輸入的採樣率為 16kHz。模型輸出的是音素標籤，需要使用字典將其映射為單詞。