wav2vec2-base-japanese-asr開源語音識別模型 - 支持日語語音轉平假名輸出

首頁

Wav2vec2 Base Japanese Asr

由TKU410410103開發

基於rinna/japanese-wav2vec2-base在common_voice_11_0日語數據集上微調的語音識別模型，僅支持平假名輸出

語音識別

Transformers

日語開源協議:Apache-2.0 #日語語音識別 #平假名專精 #低CER優化

下載量 68

發布時間 : 4/14/2024

模型概述

這是一個日語語音識別模型，專門針對日語語音進行優化，能夠將日語語音轉換為平假名文本。

模型特點

日語專用語音識別

專門針對日語語音優化的識別模型

平假名輸出

模型輸出為平假名格式，適合日語文本處理

基於wav2vec2架構

採用高效的wav2vec2-base架構進行訓練

模型能力

日語語音識別

語音轉文本

平假名轉換

使用案例

語音轉錄

日語語音轉文字

將日語語音內容轉換為平假名文本

在common_voice_11_0測試集上WER為14.18%

語音助手

日語語音指令識別

識別日語語音指令並轉換為文本

🚀 wav2vec2-base-asr

該模型是基於 rinna/japanese-wav2vec2-base 在 common_voice_11_0 數據集上針對自動語音識別（ASR）任務進行微調後的版本。此模型僅能預測平假名。

✨ 主要特性

基於預訓練模型微調，適用於日語自動語音識別任務。
僅能預測平假名。

📚 詳細文檔

致謝

本模型的微調方法受到了 vumichien/wav2vec2-large-xlsr-japanese-hiragana 訓練方法的啟發並進行了參考。

訓練過程

在 common_voice_11_0 數據集上進行微調後，得到以下結果：

步驟	訓練損失	驗證損失	字錯率（WER）
1000	6.088100	3.452597	1.000000
2000	2.816600	0.756278	0.263624
3000	0.837600	0.471486	0.185915
4000	0.624900	0.420854	0.159801
5000	0.533300	0.392494	0.149141
6000	0.490000	0.394669	0.144826
7000	0.441600	0.379999	0.141807

訓練超參數

在微調過程中，訓練超參數保持一致：

學習率（learning_rate）：1e-4
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：16
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：2
訓練輪數（num_train_epochs）：20
熱身步數（warmup_steps）：2000
學習率調度器類型（lr_scheduler_type）：線性

如何評估模型

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
from datasets import load_dataset
import torch
import torchaudio
import librosa
import numpy as np
import re
import MeCab
import pykakasi
from evaluate import load

model = Wav2Vec2ForCTC.from_pretrained('TKU410410103/wav2vec2-base-japanese-asr')
processor = Wav2Vec2Processor.from_pretrained("TKU410410103/wav2vec2-base-japanese-asr")

# load dataset
test_dataset = load_dataset('mozilla-foundation/common_voice_11_0', 'ja', split='test')
remove_columns = [col for col in test_dataset.column_names if col not in ['audio', 'sentence']]
test_dataset = test_dataset.remove_columns(remove_columns)

# resample
def process_waveforms(batch):
    speech_arrays = []
    sampling_rates = []

    for audio_path in batch['audio']:
        speech_array, _ = torchaudio.load(audio_path['path'])
        speech_array_resampled = librosa.resample(np.asarray(speech_array[0].numpy()), orig_sr=48000, target_sr=16000)
        speech_arrays.append(speech_array_resampled)
        sampling_rates.append(16000)

    batch["array"] = speech_arrays
    batch["sampling_rate"] = sampling_rates

    return batch

# hiragana
CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
          "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
          "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
          "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
          "『", "』", "〝", "〟", "⟨", "⟩", "〜", "：", "！", "？", "♪", "؛", "/", "\\", "º", "−", "^", "'", "ʻ", "ˆ"]
chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

wakati = MeCab.Tagger("-Owakati")
kakasi = pykakasi.kakasi()
kakasi.setMode("J","H")
kakasi.setMode("K","H")
kakasi.setMode("r","Hepburn")
conv = kakasi.getConverter()

def prepare_char(batch):
    batch["sentence"] = conv.do(wakati.parse(batch["sentence"]).strip())
    batch["sentence"] = re.sub(chars_to_ignore_regex,'', batch["sentence"]).strip()
    return batch


resampled_eval_dataset = test_dataset.map(process_waveforms, batched=True, batch_size=50, num_proc=4)
eval_dataset = resampled_eval_dataset.map(prepare_char, num_proc=4)

# begin the evaluation process
wer = load("wer")
cer = load("cer")

def evaluate(batch):
    inputs = processor(batch["array"], sampling_rate=16_000, return_tensors="pt", padding=True)
    with torch.no_grad():
        logits = model(inputs.input_values.to(device), attention_mask=inputs.attention_mask.to(device)).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

columns_to_remove = [column for column in eval_dataset.column_names if column != "sentence"]
batch_size = 16
result = eval_dataset.map(evaluate, remove_columns=columns_to_remove, batched=True, batch_size=batch_size)

wer_result = wer.compute(predictions=result["pred_strings"], references=result["sentence"])
cer_result = cer.compute(predictions=result["pred_strings"], references=result["sentence"])

print("WER: {:2f}%".format(100 * wer_result))
print("CER: {:2f}%".format(100 * cer_result))