wav2vec2-base-japanese-asrオープンソース音声認識モデル - 日本語音声を平仮名に変換する出力をサポート

ホーム

Wav2vec2 Base Japanese Asr

TKU410410103によって開発

rinna/japanese-wav2vec2-baseをcommon_voice_11_0日本語データセットでファインチューニングした音声認識モデル、ひらがな出力のみ対応

音声認識

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語音声認識 #ひらがな専門 #低CER最適化

ダウンロード数 68

リリース時間 : 4/14/2024

モデル概要

これは日本語音声認識モデルで、日本語音声に特化して最適化されており、日本語音声をひらがなテキストに変換できます。

モデル特徴

日本語専用音声認識

日本語音声に特化して最適化された認識モデル

ひらがな出力

モデルの出力はひらがな形式で、日本語テキスト処理に適しています

wav2vec2アーキテクチャ採用

効率的なwav2vec2-baseアーキテクチャを使用してトレーニング

モデル能力

日本語音声認識

音声からテキストへ

ひらがな変換

使用事例

音声文字起こし

日本語音声から文字へ

日本語音声コンテンツをひらがなテキストに変換

common_voice_11_0テストセットでWER 14.18%

音声アシスタント

日本語音声コマンド認識

日本語音声コマンドを認識してテキストに変換

🚀 wav2vec2-base-asr

このモデルは、音声認識タスクのためにcommon_voice_11_0データセットでrinna/japanese-wav2vec2-baseをファインチューニングしたバージョンです。

このモデルはひらがなの予測のみ可能です。

🚀 クイックスタート

このモデルは、音声認識タスクに特化しており、特定のデータセットでファインチューニングされています。以下に、モデルの評価方法の例を示します。

✨ 主な機能

音声認識タスクに最適化されたモデルです。
ひらがなの予測のみ可能です。

📚 ドキュメント

謝辞

このモデルのファインチューニング手法は、vumichien/wav2vec2-large-xlsr-japanese-hiraganaで使用されているトレーニング方法にインスパイアされ、参照されています。

トレーニング手順

common_voice_11_0データセットでのファインチューニングにより、以下の結果が得られました。

ステップ	トレーニング損失	検証損失	WER
1000	6.088100	3.452597	1.000000
2000	2.816600	0.756278	0.263624
3000	0.837600	0.471486	0.185915
4000	0.624900	0.420854	0.159801
5000	0.533300	0.392494	0.149141
6000	0.490000	0.394669	0.144826
7000	0.441600	0.379999	0.141807

トレーニングハイパーパラメータ

トレーニングハイパーパラメータは、ファインチューニングプロセス全体を通じて一定に保たれました。

learning_rate: 1e-4
train_batch_size: 16
eval_batch_size: 16
seed: 42
gradient_accumulation_steps: 2
num_train_epochs: 20
warmup_steps: 2000
lr_scheduler_type: linear

モデルの評価方法

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
from datasets import load_dataset
import torch
import torchaudio
import librosa
import numpy as np
import re
import MeCab
import pykakasi
from evaluate import load

model = Wav2Vec2ForCTC.from_pretrained('TKU410410103/wav2vec2-base-japanese-asr')
processor = Wav2Vec2Processor.from_pretrained("TKU410410103/wav2vec2-base-japanese-asr")

# load dataset
test_dataset = load_dataset('mozilla-foundation/common_voice_11_0', 'ja', split='test')
remove_columns = [col for col in test_dataset.column_names if col not in ['audio', 'sentence']]
test_dataset = test_dataset.remove_columns(remove_columns)

# resample
def process_waveforms(batch):
    speech_arrays = []
    sampling_rates = []

    for audio_path in batch['audio']:
        speech_array, _ = torchaudio.load(audio_path['path'])
        speech_array_resampled = librosa.resample(np.asarray(speech_array[0].numpy()), orig_sr=48000, target_sr=16000)
        speech_arrays.append(speech_array_resampled)
        sampling_rates.append(16000)

    batch["array"] = speech_arrays
    batch["sampling_rate"] = sampling_rates

    return batch

# hiragana
CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
          "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
          "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
          "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
          "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "'", "ʻ", "ˆ"]
chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

wakati = MeCab.Tagger("-Owakati")
kakasi = pykakasi.kakasi()
kakasi.setMode("J","H")
kakasi.setMode("K","H")
kakasi.setMode("r","Hepburn")
conv = kakasi.getConverter()

def prepare_char(batch):
    batch["sentence"] = conv.do(wakati.parse(batch["sentence"]).strip())
    batch["sentence"] = re.sub(chars_to_ignore_regex,'', batch["sentence"]).strip()
    return batch


resampled_eval_dataset = test_dataset.map(process_waveforms, batched=True, batch_size=50, num_proc=4)
eval_dataset = resampled_eval_dataset.map(prepare_char, num_proc=4)

# begin the evaluation process
wer = load("wer")
cer = load("cer")

def evaluate(batch):
    inputs = processor(batch["array"], sampling_rate=16_000, return_tensors="pt", padding=True)
    with torch.no_grad():
        logits = model(inputs.input_values.to(device), attention_mask=inputs.attention_mask.to(device)).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

columns_to_remove = [column for column in eval_dataset.column_names if column != "sentence"]
batch_size = 16
result = eval_dataset.map(evaluate, remove_columns=columns_to_remove, batched=True, batch_size=batch_size)

wer_result = wer.compute(predictions=result["pred_strings"], references=result["sentence"])
cer_result = cer.compute(predictions=result["pred_strings"], references=result["sentence"])

print("WER: {:2f}%".format(100 * wer_result))
print("CER: {:2f}%".format(100 * cer_result))