wav2vec2-large-xlsr-vietnamese開源語音識別模型

首頁

Wav2vec2 Large Xlsr Vietnamese

由CuongLD開發

這是一個基於facebook/wav2vec2-large-xlsr-53模型在越南語上微調的語音識別模型，使用了Common Voice和Infore_25h數據集進行訓練。

語音識別其他開源協議:Apache-2.0 #越南語語音識別 #多數據集微調 #低資源優化

下載量 37

發布時間 : 3/2/2022

模型概述

該模型專門用於越南語語音識別任務，支持16kHz採樣率的語音輸入。

模型特點

多數據集訓練

使用了Common Voice和Infore_25h兩個數據集進行訓練，提高了模型的泛化能力。

16kHz採樣率支持

專門優化支持16kHz採樣率的語音輸入識別。

無需語言模型

可以直接使用，無需額外的語言模型支持。

模型能力

越南語語音識別

自動語音轉文本

使用案例

語音轉寫

越南語語音轉錄

將越南語語音內容轉換為文本

在Common Voice越南語測試集上WER為58.63%

語音助手

越南語語音指令識別

用於越南語語音助手的基礎語音識別組件

🚀 Wav2Vec2-Large-XLSR-53-Vietnamese

該項目基於 facebook/wav2vec2-large-xlsr-53 模型，使用越南語的 Common Voice 和 Infore_25h 數據集（密碼：BroughtToYouByInfoRe）進行微調。該模型可用於越南語的自動語音識別任務，為越南語語音處理提供了有效的解決方案。

屬性	詳情
模型類型	用於越南語自動語音識別的微調模型
訓練數據	Common Voice 的訓練集、驗證集和 Infore_25h 數據集

🚀 快速開始

使用此模型時，請確保語音輸入的採樣率為 16kHz。

✨ 主要特性

基於預訓練的 facebook/wav2vec2-large-xlsr-53 模型進行越南語微調。
可直接用於越南語的自動語音識別任務，無需語言模型。

📦 安裝指南

文檔未提供具體安裝命令，跳過此章節。

💻 使用示例

基礎用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "vi", split="test[:2%]") 
processor = Wav2Vec2Processor.from_pretrained("CuongLD/wav2vec2-large-xlsr-vietnamese") 
model = Wav2Vec2ForCTC.from_pretrained("CuongLD/wav2vec2-large-xlsr-vietnamese")

resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
  speech_array, sampling_rate = torchaudio.load(batch["path"])
  batch["speech"] = resampler(speech_array).squeeze().numpy()
  return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
  logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset["sentence"][:2])

高級用法

import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import re

test_dataset = load_dataset("common_voice", "vi", split="test")
wer = load_metric("wer")

processor = Wav2Vec2Processor.from_pretrained("CuongLD/wav2vec2-large-xlsr-vietnamese") 
model = Wav2Vec2ForCTC.from_pretrained("CuongLD/wav2vec2-large-xlsr-vietnamese") 
model.to("cuda")

chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“]' 
resampler = torchaudio.transforms.Resample(48_000, 16_000)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
  batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
  speech_array, sampling_rate = torchaudio.load(batch["path"])
  batch["speech"] = resampler(speech_array).squeeze().numpy()
  return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# Preprocessing the datasets.
# We need to read the aduio files as arrays
def evaluate(batch):
  inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

  with torch.no_grad():
    logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits

  pred_ids = torch.argmax(logits, dim=-1)
  batch["pred_strings"] = processor.batch_decode(pred_ids)
  return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8)

print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))

測試結果：58.63 %

📚 詳細文檔

訓練

使用 Common Voice 的 train、validation 數據集和 Infore_25h 數據集進行訓練。訓練腳本可在此處找到。

如何評估訓練的檢查點

上傳模型後，需要進行最終評估。只需將模型卡片中的評估代碼複製到 Python 腳本中並運行即可。請務必在模型卡片的 YAML 標籤頂部和評估代碼下方的“測試結果”部分記錄最終結果。

訓練和評估規則

訓練數據：除官方 Common Voice 的 test 數據集外，所有數據都可用於訓練。對於在 Common Voice 中未包含的語言進行訓練的模型，模型作者應留出合理數量的數據用於評估。
數據預處理：允許（並推薦）將數據歸一化為僅包含小寫字符，也允許（並推薦）去除排版符號和標點符號。但不應去除會改變單詞含義的符號，例如英語中的單引號 '。

技巧和竅門

如何合併多個數據集：查看此帖子。
如何有效預處理數據：文檔未提供具體內容，跳過。
如何在有限的內存和硬盤空間下高效加載數據集：查看此帖子。
如何進行超參數調優：文檔未提供具體內容，跳過。
如何預處理和評估基於字符的語言：文檔未提供具體內容，跳過。

進一步閱讀材料

建議花時間瞭解 Wav2vec2 的理論工作原理，這有助於微調模型。以下是一些重要的參考資源：

常見問題解答

參與者可以為多種語言微調模型嗎？ 可以，參與者可以根據自己的喜好為多種語言微調模型。
參與者可以使用額外的數據（除了 Common Voice 數據）嗎？ 可以，除官方 Common Voice 的 test 數據外，所有數據都可用於訓練。如果參與者想在 Common Voice 中未包含的語言上訓練模型，應留出一些測試數據以確保模型不過擬合。
我們可以為高資源語言進行微調嗎？ 可以，雖然不建議對英語進行微調，因為已經有很多英語的微調語音識別模型。但如果參與者想對其他“高資源”語言（如法語、西班牙語或德語）進行微調，是非常受歡迎的。對於這種情況，可能需要在本地訓練並應用一些技巧，如懶數據加載（更多細節請查看 "懶數據加載" 部分）。