wav2vec2-large-vi-vlsp2020開源越南語語音識別模型

首頁

Wav2vec2 Large Vi Vlsp2020

由nguyenvulebinh開發

基於wav2vec2架構的越南語自動語音識別模型，預訓練使用1.3萬小時未標註YouTube音頻，並在250小時標註數據上微調

語音識別

Transformers

其他#越南語語音識別 #高精度WER #5-gram語言模型優化

下載量 385

發布時間 : 11/4/2022

模型概述

該模型專為越南語語音識別任務設計，支持16kHz採樣率的音頻輸入，可輸出轉錄文本。包含基礎版和大型版兩個版本，支持結合語言模型提升識別準確率。

模型特點

大規模預訓練

使用1.3萬小時越南語YouTube音頻進行預訓練，學習豐富的語音特徵表示

領域微調

在VLSP ASR數據集的250小時標註數據上進行微調，優化越南語識別性能

語言模型集成

支持結合5-gram語言模型，顯著降低詞錯誤率（WER）

高性能表現

在VLSP T1測試集上達到5.32%的詞錯誤率（使用語言模型時）

模型能力

越南語語音識別

音頻轉錄

支持16kHz採樣率音頻處理

使用案例

語音轉錄

越南語會議記錄

將越南語會議錄音自動轉錄為文字記錄

準確率超過93%（使用語言模型時）

媒體字幕生成

為越南語視頻內容自動生成字幕

語音助手

越南語語音指令識別

用於越南語語音助手的前端語音識別模塊

🚀 越南語自動語音識別模型

本項目提供了基於wav2vec2架構的越南語自動語音識別模型，該模型在大量越南語音頻數據上進行預訓練和微調，能有效實現語音到文本的轉換，為越南語語音處理提供了強大的工具。

🚀 快速開始

你可以點擊下面的鏈接在Colab中快速體驗模型：

✨ 主要特性

架構先進：採用wav2vec2架構，在語音識別任務中表現出色。
數據豐富：在13000小時的越南語YouTube音頻（無標籤數據）上進行預訓練，並在250小時標註的VLSP ASR數據集上進行微調。
效果優異：在VLSP T1測試集上取得了較低的字錯率（WER）。

📦 安裝指南

在使用模型前，你需要安裝以下依賴庫：

#pytorch
#!pip install transformers==4.20.0
#!pip install https://github.com/kpu/kenlm/archive/master.zip
#!pip install pyctcdecode==0.4.0
#!pip install huggingface_hub==0.10.0

💻 使用示例

基礎用法

from transformers.file_utils import cached_path, hf_bucket_url
from importlib.machinery import SourceFileLoader
from transformers import Wav2Vec2ProcessorWithLM
from IPython.lib.display import Audio
import torchaudio
import torch

# Load model & processor
model_name = "nguyenvulebinh/wav2vec2-large-vi-vlsp2020"
model = SourceFileLoader("model", cached_path(hf_bucket_url(model_name,filename="model_handling.py"))).load_module().Wav2Vec2ForCTC.from_pretrained(model_name)
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)

# Load an example audio (16k)
audio, sample_rate = torchaudio.load(cached_path(hf_bucket_url(model_name, filename="t2_0000006682.wav")))
input_data = processor.feature_extractor(audio[0], sampling_rate=16000, return_tensors='pt')

# Infer
output = model(**input_data)

# Output transcript without LM
print(processor.tokenizer.decode(output.logits.argmax(dim=-1)[0].detach().cpu().numpy()))

# Output transcript with LM
print(processor.decode(output.logits.cpu().detach().numpy()[0], beam_width=100).text)