wav2vec2-base-vi-vlsp2020開源模型 - 精準實現越南語自動語音識別

首頁

Wav2vec2 Base Vi Vlsp2020

由nguyenvulebinh開發

基於wav2vec2架構的越南語自動語音識別模型，預訓練於13,000小時未標註YouTube音頻，並在250小時標註數據上微調。

語音識別

Transformers

其他#越南語ASR #wav2vec2架構 #低WER

下載量 262

發布時間 : 11/4/2022

模型概述

該模型專為越南語自動語音識別(ASR)設計，支持帶語言模型的解碼以提高準確率。

模型特點

大規模預訓練

使用13,000小時越南語YouTube音頻進行自監督預訓練

高精度微調

在VLSP ASR數據集的250小時標註數據上微調

語言模型集成

支持5-gram語言模型解碼，顯著降低WER

模型能力

越南語語音識別

帶語言模型的語音解碼

使用案例

語音轉錄

越南語語音轉文本

將越南語語音內容轉換為文本

測試集WER低至5.32%（帶語言模型）

🚀 越南語自動語音識別模型

本項目的模型基於wav2vec2架構，可用於越南語的自動語音識別，在大量越南語音頻數據上進行了預訓練和微調，能有效提升語音識別的準確率。

🚀 快速開始

你可以點擊下面的鏈接在Colab中運行示例代碼：

✨ 主要特性

架構先進：使用wav2vec2架構，在語音識別領域表現出色。
數據豐富：在13000小時的越南語Youtube音頻（無標籤數據）上進行預訓練，並在250小時標註的VLSP ASR數據集上進行微調。
效果良好：在VLSP T1測試集上取得了較低的字錯率（WER）。

📦 安裝指南

在運行代碼前，你需要安裝以下依賴：

#pytorch
#!pip install transformers==4.20.0
#!pip install https://github.com/kpu/kenlm/archive/master.zip
#!pip install pyctcdecode==0.4.0
#!pip install huggingface_hub==0.10.0

💻 使用示例

基礎用法

#pytorch
#!pip install transformers==4.20.0
#!pip install https://github.com/kpu/kenlm/archive/master.zip
#!pip install pyctcdecode==0.4.0
#!pip install huggingface_hub==0.10.0

from transformers.file_utils import cached_path, hf_bucket_url
from importlib.machinery import SourceFileLoader
from transformers import Wav2Vec2ProcessorWithLM
from IPython.lib.display import Audio
import torchaudio
import torch

# Load model & processor
model_name = "nguyenvulebinh/wav2vec2-base-vi-vlsp2020"
model = SourceFileLoader("model", cached_path(hf_bucket_url(model_name,filename="model_handling.py"))).load_module().Wav2Vec2ForCTC.from_pretrained(model_name)
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)

# Load an example audio (16k)
audio, sample_rate = torchaudio.load(cached_path(hf_bucket_url(model_name, filename="t2_0000006682.wav")))
input_data = processor.feature_extractor(audio[0], sampling_rate=16000, return_tensors='pt')

# Infer
output = model(**input_data)

# Output transcript without LM
print(processor.tokenizer.decode(output.logits.argmax(dim=-1)[0].detach().cpu().numpy()))

# Output transcript with LM
print(processor.decode(output.logits.cpu().detach().numpy()[0], beam_width=100).text)