🚀 越南語自動語音識別模型
本項目的模型基於wav2vec2架構,可用於越南語的自動語音識別,在大量越南語音頻數據上進行了預訓練和微調,能有效提升語音識別的準確率。
🚀 快速開始
你可以點擊下面的鏈接在Colab中運行示例代碼:

✨ 主要特性
- 架構先進:使用wav2vec2架構,在語音識別領域表現出色。
- 數據豐富:在13000小時的越南語Youtube音頻(無標籤數據)上進行預訓練,並在250小時標註的VLSP ASR數據集上進行微調。
- 效果良好:在VLSP T1測試集上取得了較低的字錯率(WER)。
📦 安裝指南
在運行代碼前,你需要安裝以下依賴:
💻 使用示例
基礎用法
from transformers.file_utils import cached_path, hf_bucket_url
from importlib.machinery import SourceFileLoader
from transformers import Wav2Vec2ProcessorWithLM
from IPython.lib.display import Audio
import torchaudio
import torch
model_name = "nguyenvulebinh/wav2vec2-base-vi-vlsp2020"
model = SourceFileLoader("model", cached_path(hf_bucket_url(model_name,filename="model_handling.py"))).load_module().Wav2Vec2ForCTC.from_pretrained(model_name)
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)
audio, sample_rate = torchaudio.load(cached_path(hf_bucket_url(model_name, filename="t2_0000006682.wav")))
input_data = processor.feature_extractor(audio[0], sampling_rate=16000, return_tensors='pt')
output = model(**input_data)
print(processor.tokenizer.decode(output.logits.argmax(dim=-1)[0].detach().cpu().numpy()))
print(processor.decode(output.logits.cpu().detach().numpy()[0], beam_width=100).text)
📚 詳細文檔
模型描述
我們的模型使用wav2vec2架構,在13000小時的越南語Youtube音頻(無標籤數據)上進行預訓練,並在250小時標註的VLSP ASR數據集(16kHz採樣的語音音頻)上進行微調。你可以在這裡找到更多描述。
基準測試結果
以下是模型在VLSP T1測試集上的字錯率(WER)結果:
|
基礎模型 |
大模型 |
無語言模型 |
8.66 |
6.90 |
使用5-gram語言模型 |
6.53 |
5.32 |
📄 許可證
自動語音識別(ASR)模型參數僅可用於非商業用途,遵循知識共享署名-非商業性使用 4.0 國際許可協議(CC BY-NC 4.0)。你可以在以下鏈接查看詳細條款:https://creativecommons.org/licenses/by-nc/4.0/legalcode
聯繫我們
如果你有任何問題或建議,請通過以下郵箱聯繫我們:nguyenvulebinh@gmail.com
