wav2vec2-large-vi-vlsp2020オープンソースベトナム語音声認識モデル - 無料で高精度な音声からテキストへの変換を実現

ホーム

Wav2vec2 Large Vi Vlsp2020

nguyenvulebinhによって開発

wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル。1.3万時間の未ラベルYouTube音声で事前学習し、250時間のラベル付きデータでファインチューニング

音声認識

Transformers

その他#ベトナム語音声認識 #高精度WER #5-gram言語モデル最適化

ダウンロード数 385

リリース時間 : 11/4/2022

モデル概要

このモデルはベトナム語音声認識タスク専用に設計され、16kHzサンプリングレートの音声入力をサポートし、転記テキストを出力します。基本版と大型版の2バージョンがあり、言語モデルとの統合で認識精度向上が可能です。

モデル特徴

大規模事前学習

1.3万時間のベトナム語YouTube音声で事前学習し、豊富な音声特徴表現を学習

ドメインファインチューニング

VLSP ASRデータセットの250時間ラベル付きデータでファインチューニングし、ベトナム語認識性能を最適化

言語モデル統合

5-gram言語モデルとの統合をサポートし、単語誤り率（WER）を大幅に低減

高性能

VLSP T1テストセットで5.32%の単語誤り率を達成（言語モデル使用時）

モデル能力

ベトナム語音声認識

音声転記

16kHzサンプリングレート音声処理をサポート

使用事例

音声転記

ベトナム語会議議事録

ベトナム語会議録音を自動的に文字記録に転記

93%以上の精度（言語モデル使用時）

メディア字幕生成

ベトナム語動画コンテンツに自動字幕を生成

音声アシスタント

ベトナム語音声コマンド認識

ベトナム語音声アシスタントのフロントエンド音声認識モジュールとして使用

🚀 自動音声認識モデル

このプロジェクトは、ベトナム語の自動音声認識を目的としたモデルを提供します。wav2vec2アーキテクチャを使用し、大量のデータで事前学習および微調整されています。

🚀 クイックスタート

このモデルは、wav2vec2アーキテクチャを使用しており、13,000時間のベトナム語のYouTubeオーディオ（未ラベルデータ）で事前学習され、250時間のVLSP ASRデータセットのラベル付きデータで微調整されています。詳細な説明はこちらを参照してください。

✨ 主な機能

ベトナム語の自動音声認識に特化したモデル。
wav2vec2アーキテクチャを利用し、高精度な認識を実現。

📦 インストール

以下のコマンドを使用して必要なライブラリをインストールします。

#!pip install transformers==4.20.0
#!pip install https://github.com/kpu/kenlm/archive/master.zip
#!pip install pyctcdecode==0.4.0
#!pip install huggingface_hub==0.10.0

💻 使用例

基本的な使用法

#pytorch
#!pip install transformers==4.20.0
#!pip install https://github.com/kpu/kenlm/archive/master.zip
#!pip install pyctcdecode==0.4.0
#!pip install huggingface_hub==0.10.0

from transformers.file_utils import cached_path, hf_bucket_url
from importlib.machinery import SourceFileLoader
from transformers import Wav2Vec2ProcessorWithLM
from IPython.lib.display import Audio
import torchaudio
import torch

# Load model & processor
model_name = "nguyenvulebinh/wav2vec2-large-vi-vlsp2020"
model = SourceFileLoader("model", cached_path(hf_bucket_url(model_name,filename="model_handling.py"))).load_module().Wav2Vec2ForCTC.from_pretrained(model_name)
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)

# Load an example audio (16k)
audio, sample_rate = torchaudio.load(cached_path(hf_bucket_url(model_name, filename="t2_0000006682.wav")))
input_data = processor.feature_extractor(audio[0], sampling_rate=16000, return_tensors='pt')

# Infer
output = model(**input_data)

# Output transcript without LM
print(processor.tokenizer.decode(output.logits.argmax(dim=-1)[0].detach().cpu().numpy()))

# Output transcript with LM
print(processor.decode(output.logits.cpu().detach().numpy()[0], beam_width=100).text)

📚 ドキュメント

ベンチマークWER結果 (VLSP T1テストセット)

	ベースモデル	ラージモデル
LMなし	8.66	6.90
5-gram LMあり	6.53	5.32

モデルパラメータのライセンス

このASRモデルのパラメータは、Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)ライセンスの下で、非商用利用のみに提供されています。詳細はこちらを参照してください：https://creativecommons.org/licenses/by-nc/4.0/legalcode