wav2vec-NCKH-2022開源越南語語音識別模型

首頁

Wav2vec NCKH 2022

由hoangbinhmta99開發

基於Wav2vec2架構的越南語自動語音識別模型，支持從音頻到文本的轉換

語音識別

Transformers

其他#越南語語音識別 #Transformer架構 #低資源優化

下載量 29

發布時間 : 3/30/2022

模型概述

該模型是一個基於Transformer架構的自動語音識別(ASR)模型，專門針對越南語語音識別任務進行優化。它能夠將越南語語音轉換為對應的文本內容。

模型特點

越南語語音識別

專門針對越南語優化的語音識別能力

基於Transformer架構

採用先進的Transformer架構，提供高質量的語音識別性能

預訓練模型轉換

支持從.pt格式的預訓練模型轉換為Transformer格式

模型能力

越南語語音識別

音頻轉文本

自動語音識別

使用案例

語音轉寫

越南語語音轉文本

將越南語語音內容轉換為可編輯的文本格式

語音助手

越南語語音指令識別

用於構建支持越南語的語音助手系統

🚀 Wav2vec2 NCKH Vietnamese 2022

本項目是用於越南語自動語音識別的模型，將 .pt 模型轉換為 Transformer 架構，可基於相關數據集進行語音識別任務。

🚀 快速開始

本模型可用於越南語的自動語音識別任務，下面將介紹模型轉換、安裝及上傳的具體步驟。

📦 安裝指南

模型轉換

將 .pt 模型轉換為 Transformer 架構，可按照以下步驟操作：

pip install transformers[sentencepiece]
pip install fairseq -U
git clone https://github.com/huggingface/transformers.git
cp transformers/src/transformers/models/wav2vec2/convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py .
wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_small.pt -O ./wav2vec_small.pt
mkdir dict
wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt
mkdir outputs
python convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py 
--pytorch_dump_folder_path ./outputs --checkpoint_path ./finetuned/wav2vec_small.pt
 --dict_path ./dict/dict.ltr.txt --not_finetuned

安裝並上傳模型

按照以下步驟安裝並上傳模型：

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
git lfs install
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/hoangbinhmta99/wav2vec-demo
ls
cd wav2vec-demo/
git status
git add .
git commit -m "First model version"
git config --global user.email [yourname]
git config --global user.name [yourpass]
git commit -m "First model version"
git push