オープンソースのwav2vec2ロシア語音声認識モデル - 精度の高いロシア語音声認識、無料で利用できるので見逃さないで！

ホーム

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Plus Data Augmentation Russian

Edressonによって開発

FacebookのWav2vec2 Large 100k Voxpopuliモデルをベースに、Common Voice 7.0、M-AILABSデータセットおよびデータ拡張技術を使用してロシア語で微調整された音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ロシア語音声認識 #複数データセットの微調整 #データ拡張最適化

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

このモデルは自動音声認識（ASR）システムで、ロシア語に特化して最適化されており、ロシア語の音声をテキストに変換することができます。

モデル特徴

複数データセットの微調整

Common Voice 7.0とM-AILABSデータセットを使用して学習を行い、モデルの認識精度を向上させました。

データ拡張技術

TTSと音声変換に基づくデータ拡張方法を採用し、モデルの汎化能力を強化しました。

ロシア語最適化

ロシア語の音声特性に特化して最適化されており、ロシア語の認識タスクで優れた性能を発揮します。

モデル能力

ロシア語音声認識

音声をテキストに変換

自動音声認識

使用事例

音声文字起こし

ロシア語音声の文字起こし

ロシア語の音声内容を自動的にテキストに変換します。

Common Voice 7.0テストセットで19.46%の単語誤り率を達成しました。

音声アシスタント

ロシア語音声指令の認識

ロシア語の音声アシスタントでの音声指令認識に使用されます。

🚀 Wav2vec2 Large 100k Voxpopuli を Common Voice 7.0、MAILABS とデータ拡張を用いてロシア語でファインチューニング

このモデルは、Wav2vec2 Large 100k Voxpopuli を、Common Voice 7.0、M - AILABS と、TTS と音声変換に基づくデータ拡張手法を用いて、ロシア語でファインチューニングしたものです。

🚀 クイックスタート

このセクションでは、このモデルを使用するための基本的な手順を説明します。

✨ 主な機能

データセット：Common Voice を使用。
評価指標：WER（Word Error Rate）を使用。
タグ：音声、音声認識、wav2vec2、ポルトガル語、ロシア語音声コーパス、自動音声認識、PyTorch など。
ライセンス：Apache - 2.0 ライセンス。

モデル情報

属性	详情
モデル名	Edresson Casanova Wav2vec2 Large 100k Voxpopuli を Common Voice 7.0、MAILABS とデータ拡張を用いてロシア語でファインチューニングしたもの
モデルタイプ	自動音声認識
訓練データ	Common Voice 7.0、MAILABS とデータ拡張
評価指標	WER（Test Common Voice 7.0 WER の値は 19.46）

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコードを使用して、モデルを読み込むことができます。

from transformers import AutoTokenizer, Wav2Vec2ForCTC
  
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-russian")

model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-russian")

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, Wav2Vec2ForCTC
  
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-russian")

model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-russian")

高度な使用法

Common Voice データセットを使用したテストの例です。

dataset = load_dataset("common_voice", "ru", split="test", data_dir="./cv-corpus-7.0-2021-07-21")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("â€™", "'")
    return batch

ds = dataset.map(map_to_array)
result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))
print(wer.compute(predictions=result["predicted"], references=result["target"]))