wav2vec-NCKH-2022开源越南语语音识别模型

首页

Wav2vec NCKH 2022

由 hoangbinhmta99 开发

基于Wav2vec2架构的越南语自动语音识别模型，支持从音频到文本的转换

语音识别

Transformers

其他#越南语语音识别 #Transformer架构 #低资源优化

下载量 29

发布时间 : 3/30/2022

模型简介

该模型是一个基于Transformer架构的自动语音识别(ASR)模型，专门针对越南语语音识别任务进行优化。它能够将越南语语音转换为对应的文本内容。

模型特点

越南语语音识别

专门针对越南语优化的语音识别能力

基于Transformer架构

采用先进的Transformer架构，提供高质量的语音识别性能

预训练模型转换

支持从.pt格式的预训练模型转换为Transformer格式

模型能力

越南语语音识别

音频转文本

自动语音识别

使用案例

语音转写

越南语语音转文本

将越南语语音内容转换为可编辑的文本格式

语音助手

越南语语音指令识别

用于构建支持越南语的语音助手系统

🚀 Wav2vec2 NCKH Vietnamese 2022

本项目是用于越南语自动语音识别的模型，将 .pt 模型转换为 Transformer 架构，可基于相关数据集进行语音识别任务。

🚀 快速开始

本模型可用于越南语的自动语音识别任务，下面将介绍模型转换、安装及上传的具体步骤。

📦 安装指南

模型转换

将 .pt 模型转换为 Transformer 架构，可按照以下步骤操作：

pip install transformers[sentencepiece]
pip install fairseq -U
git clone https://github.com/huggingface/transformers.git
cp transformers/src/transformers/models/wav2vec2/convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py .
wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_small.pt -O ./wav2vec_small.pt
mkdir dict
wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt
mkdir outputs
python convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py 
--pytorch_dump_folder_path ./outputs --checkpoint_path ./finetuned/wav2vec_small.pt
 --dict_path ./dict/dict.ltr.txt --not_finetuned

安装并上传模型

按照以下步骤安装并上传模型：

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
git lfs install
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/hoangbinhmta99/wav2vec-demo
ls
cd wav2vec-demo/
git status
git add .
git commit -m "First model version"
git config --global user.email [yourname]
git config --global user.name [yourpass]
git commit -m "First model version"
git push