wav2vec2-base-vietnamese開源越南語語音識別模型

首頁

Wav2vec2 Base Vietnamese

由dragonSwing開發

基於Wav2Vec2架構的越南語語音識別模型，在VSLP數據集上微調，支持16kHz採樣率的語音輸入

語音識別

Transformers

其他開源協議:Apache-2.0 #越南語語音識別 #16kHz採樣率 #無語言模型依賴

下載量 16

發布時間 : 3/2/2022

模型概述

該模型是針對越南語優化的自動語音識別(ASR)系統，基於Facebook的Wav2Vec2架構，使用100小時標註數據微調，可直接用於語音轉文本任務

模型特點

越南語優化

專門針對越南語語音特點進行訓練和優化

無需語言模型

可直接使用，不需要額外的語言模型支持

高效處理

支持16kHz採樣率的語音輸入，適合即時應用場景

模型能力

越南語語音識別

語音轉文本

自動語音識別

使用案例

語音轉錄

語音轉寫

將越南語語音內容轉換為文本

在Common Voice測試集上WER為31.35%

智能助手

越南語語音指令識別

用於越南語智能語音助手的人機交互

🚀 Wav2Vec2-Large-XLSR-53-越南語

本項目基於 dragonSwing/wav2vec2-base-pretrain-vietnamese 模型，使用來自 VSLP 數據集的 100 小時標註數據，針對越南語語音識別任務進行了微調。該模型可有效處理越南語語音識別問題，為越南語語音處理提供了有力的支持。

🚀 快速開始

在使用此模型時，請確保您的語音輸入採樣率為 16kHz。

✨ 主要特性

數據集支持：使用了 vlsp 和 common_voice 等數據集進行訓練和測試。
評估指標：採用字錯率（WER）作為評估指標。
任務類型：專注於自動語音識別（Automatic Speech Recognition）任務。

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關依賴庫（如 torch、torchaudio、datasets、transformers 等）的官方安裝說明進行安裝。

💻 使用示例

基礎用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
test_dataset = load_dataset("common_voice", "vi", split="test")
processor = Wav2Vec2Processor.from_pretrained("dragonSwing/wav2vec2-base-vietnamese")
model = Wav2Vec2ForCTC.from_pretrained("dragonSwing/wav2vec2-base-vietnamese")
resampler = torchaudio.transforms.Resample(48_000, 16_000)
# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
  speech_array, sampling_rate = torchaudio.load(batch["path"])
  batch["speech"] = resampler(speech_array).squeeze().numpy()
  return batch
test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
  logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, dim=-1)
print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])

高級用法

import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import re
test_dataset = load_dataset("common_voice", "vi", split="test")
wer = load_metric("wer")
processor = Wav2Vec2Processor.from_pretrained("dragonSwing/wav2vec2-base-vietnamese")
model = Wav2Vec2ForCTC.from_pretrained("dragonSwing/wav2vec2-base-vietnamese")
model.to("cuda")
chars_to_ignore_regex = r'[,?.!\-;:"“%\'�]'
resampler = torchaudio.transforms.Resample(48_000, 16_000)
# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
  batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
  speech_array, sampling_rate = torchaudio.load(batch["path"])
  batch["speech"] = resampler(speech_array).squeeze().numpy()
  return batch
test_dataset = test_dataset.map(speech_file_to_array_fn)
# Preprocessing the datasets.
# We need to read the aduio files as arrays
def evaluate(batch):
  inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
  with torch.no_grad():
    logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits
  pred_ids = torch.argmax(logits, dim=-1)
  batch["pred_strings"] = processor.batch_decode(pred_ids)
  return batch
result = test_dataset.map(evaluate, batched=True, batch_size=1)
print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))

測試結果

測試結果：31.353591%

📚 詳細文檔

模型信息

屬性	詳情
模型類型	Wav2Vec2-Large-XLSR-53-越南語
訓練數據	vlsp、common_voice
評估指標	字錯率（WER）
許可證	Apache-2.0

模型索引

名稱：Wav2vec2 Base Vietnamese
結果：
- 任務：
  - 名稱：語音識別
  - 類型：自動語音識別
- 數據集：
  - 名稱：Common Voice vi
  - 類型：common_voice
  - 參數：vi
- 評估指標：
  - 名稱：測試字錯率（Test WER）
  - 類型：字錯率（WER）
  - 值：31.353591