wav2vec - NCKH - 2022 オープンソースベトナム語音声認識モデル

ホーム

Wav2vec NCKH 2022

hoangbinhmta99によって開発

Wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル、音声からテキストへの変換をサポート

音声認識

Transformers

その他#ベトナム語音声認識 #Transformerアーキテクチャ #低リソース最適化

ダウンロード数 29

リリース時間 : 3/30/2022

モデル概要

このモデルはTransformerアーキテクチャに基づく自動音声認識(ASR)モデルで、特にベトナム語音声認識タスク向けに最適化されています。ベトナム語音声を対応するテキスト内容に変換できます。

モデル特徴

ベトナム語音声認識

ベトナム語向けに最適化された音声認識能力

Transformerアーキテクチャ採用

先進的なTransformerアーキテクチャを採用し、高品質な音声認識性能を提供

事前学習モデル変換

.pt形式の事前学習モデルからTransformer形式への変換をサポート

モデル能力

ベトナム語音声認識

音声からテキストへ

自動音声認識

使用事例

音声文字起こし

ベトナム語音声からテキストへ

ベトナム語音声内容を編集可能なテキスト形式に変換

音声アシスタント

ベトナム語音声コマンド認識

ベトナム語対応の音声アシスタントシステム構築に使用

🚀 Wav2vec2 NCKH Vietnamese 2022

このモデルは、自動音声認識タスクに特化したもので、VivosやCommon Voiceなどのデータセットを用いて訓練されています。Transformerアーキテクチャをベースに構築され、音声やオーディオデータの処理に適しています。

🚀 クイックスタート

このセクションでは、モデルの変換、インストール、アップロードの手順を説明します。

📦 インストール

モデルの変換

モデルを.pt形式からTransformer形式に変換する手順です。

pip install transformers[sentencepiece]
pip install fairseq -U
git clone https://github.com/huggingface/transformers.git
cp transformers/src/transformers/models/wav2vec2/convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py .
wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/wav2vec_small.pt -O ./wav2vec_small.pt
mkdir dict
wget https://dl.fbaipublicfiles.com/fairseq/wav2vec/dict.ltr.txt
mkdir outputs
python convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py 
--pytorch_dump_folder_path ./outputs --checkpoint_path ./finetuned/wav2vec_small.pt
 --dict_path ./dict/dict.ltr.txt --not_finetuned

モデルのインストールとアップロード

モデルをインストールし、アップロードする手順です。

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
git lfs install
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/hoangbinhmta99/wav2vec-demo
ls
cd wav2vec-demo/
git status
git add .
git commit -m "First model version"
git config --global user.email [yourname]
git config --global user.name [yourpass]
git commit -m "First model version"
git push