wav2vec2-live-japanese Open-Source Japanese Speech Recognition Model - Free Deployment with Hiragana Output Support

Home

Wav2vec2 Live Japanese

Developed by ttop324

A Japanese speech recognition model fine-tuned based on facebook/wav2vec2-large-xlsr-53, supporting hiragana output

Speech Recognition

Transformers

JapaneseOpen Source License:Apache-2.0 #Japanese Speech Recognition #Hiragana Optimization #Multi-dataset Training

Downloads 20

Release Time : 3/2/2022

Model Overview

This is an optimized Automatic Speech Recognition (ASR) model for Japanese, capable of converting Japanese speech into hiragana text. The model has been fine-tuned on multiple Japanese speech datasets and is suitable for Japanese speech transcription tasks.

Model Features

Multi-dataset Fine-tuning

Fine-tuned on multiple Japanese speech datasets including common_voice, JSUT, CSS10, TEDxJP-10K, JVS, and JSSS

Hiragana Output

Specifically optimized for Japanese hiragana conversion, capable of outputting standardized hiragana text

High Performance

Achieved 21.48% WER and 9.82% CER on the Common Voice Japanese test set

Model Capabilities

Japanese Speech Recognition

Audio to Text

Hiragana Conversion

Use Cases

Speech Transcription

Japanese Speech to Text

Convert Japanese speech content into hiragana text

21.48% WER accuracy

Assistive Tools

Real-time Caption Generation

Generate real-time captions for Japanese videos or live streams

🚀 wav2vec2-live-japanese

This model is fine-tuned from facebook/wav2vec2-large-xlsr-53 on Japanese hiragana, aiming to provide high - quality automatic speech recognition for Japanese.

🚀 Quick Start

This model is fine-tuned from facebook/wav2vec2-large-xlsr-53 on Japanese hiragana using multiple datasets:

You can access the project on GitHub: https://github.com/ttop32/wav2vec2-live-japanese-translator

💻 Usage Examples

Basic Usage

#usage
import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
model = Wav2Vec2ForCTC.from_pretrained("ttop324/wav2vec2-live-japanese")
processor = Wav2Vec2Processor.from_pretrained("ttop324/wav2vec2-live-japanese")
test_dataset = load_dataset("common_voice", "ja", split="test")
# Preprocessing the datasets.
# We need to read the aduio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = torchaudio.functional.resample(speech_array, sampling_rate, 16000)[0].numpy()    
    return batch
test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset[:2]["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
	logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, dim=-1)
print("Prediction:", processor.batch_decode(predicted_ids))
print("Reference:", test_dataset[:2]["sentence"])

Advanced Usage

import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import re
import pykakasi 
import MeCab
wer = load_metric("wer")
cer = load_metric("cer")
model = Wav2Vec2ForCTC.from_pretrained("ttop324/wav2vec2-live-japanese").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("ttop324/wav2vec2-live-japanese")
test_dataset = load_dataset("common_voice", "ja", split="test")
chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\‘\”\�‘、。．！，・―─~｢｣『』\\\\※\[\]\{\}「」〇？…]'
wakati = MeCab.Tagger("-Owakati")
kakasi = pykakasi.kakasi()
kakasi.setMode("J","H")      # kanji to hiragana
kakasi.setMode("K","H")      # katakana to hiragana
conv = kakasi.getConverter()
FULLWIDTH_TO_HALFWIDTH = str.maketrans(
    '　０１２３４５６７８９ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚＡＢＣＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＹＺ！゛＃＄％＆（）＊＋、ー。／：；〈＝〉？＠［］＾＿‘｛｜｝～',
    ' 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&()*+,-./:;<=>?@[]^_`{|}~',
)
def fullwidth_to_halfwidth(s):
    return s.translate(FULLWIDTH_TO_HALFWIDTH)
def preprocessData(batch):
    batch["sentence"] = fullwidth_to_halfwidth(batch["sentence"])
    batch["sentence"] = re.sub(chars_to_ignore_regex,' ', batch["sentence"]).lower()  #remove special char
    batch["sentence"] = wakati.parse(batch["sentence"])                              #add space
    batch["sentence"] = conv.do(batch["sentence"])                                   #covert to hiragana
    batch["sentence"] = " ".join(batch["sentence"].split())+" "                         #remove multiple space 
    
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = torchaudio.functional.resample(speech_array, sampling_rate, 16000)[0].numpy()    
    return batch
test_dataset = test_dataset.map(preprocessData)
# Preprocessing the datasets.
# We need to read the aduio files as arrays
def evaluate(batch):
	inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
	with torch.no_grad():
		logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits
	pred_ids = torch.argmax(logits, dim=-1)
	batch["pred_strings"] = processor.batch_decode(pred_ids)
	return batch
result = test_dataset.map(evaluate, batched=True, batch_size=8)
print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
print("CER: {:2f}".format(100 * cer.compute(predictions=result["pred_strings"], references=result["sentence"])))

📄 License

This project is licensed under the Apache 2.0 license.

📚 Documentation

Property	Details
Model Type	wav2vec2-live-japanese
Training Data	common_voice, JSUT, CSS10, TEDxJP - 10K, JVS, JSSS
Metrics	WER, CER
Task	Automatic Speech Recognition
Dataset	Common Voice Japanese
Test WER	21.48%
Test CER	9.82%

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご