wav2vec2-large-xlsr-53-japanese开源模型 - 支持日语语音识别，适配16kHz音频

首页

Wav2vec2 Large Xlsr 53 Japanese

由 Ivydata 开发

基于facebook/wav2vec2-large-xlsr-53微调的日语语音识别模型，支持16kHz采样率音频输入

语音识别

Transformers

日语开源协议:Apache-2.0 #日语语音识别 #低CER表现 #多数据集微调

下载量 19

发布时间 : 5/11/2023

模型简介

该模型是在XLSR-53大模型基础上，使用Common Voice、JVS和JSUT日语数据集微调而成的语音识别模型，专门用于日语语音转文本任务。

模型特点

多数据集微调

使用Common Voice、JVS和JSUT三个日语数据集进行微调，提高了模型对日语语音的识别能力

无需语言模型

可直接使用，无需额外语言模型支持

高性能

在TEDxJP-10K数据集上CER为27.87%，优于同类日语语音识别模型

模型能力

日语语音识别

16kHz音频处理

实时语音转文本

使用案例

语音转录

日语会议记录

将日语会议录音自动转换为文字记录

准确率约72.13%（基于CER指标）

日语字幕生成

为日语视频内容自动生成字幕

语音助手

日语语音指令识别

用于日语语音助手或智能家居设备的语音指令识别

🚀 用于语音识别的微调日语Wav2Vec2模型（使用XLSR - 53大模型）

本项目是基于facebook/wav2vec2-large-xlsr-53模型，使用Common Voice、JVS和JSUT数据集对日语进行微调后的语音识别模型。使用该模型时，请确保语音输入的采样率为16kHz。

🚀 快速开始

本模型可直接使用（无需语言模型），以下是使用示例。

💻 使用示例

基础用法

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "ja"
MODEL_ID = "Ivydata/wav2vec2-large-xlsr-53-japanese"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference: ", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

📚 详细文档

测试结果

下表展示了该模型在TEDxJP - 10K数据集上测试的字符错误率（CER）。

模型	字符错误率（CER）
Ivydata/wav2vec2-large-xlsr-53-japanese	27.87%
jonatasgrosman/wav2vec2-large-xlsr-53-japanese	34.18%
vumichien/wav2vec2-large-xlsr-japanese	37.72%

测试推理示例

参考文本	预测文本
ただ選択するのではなくどう考えて選択をするのか	ただ洗濯するのではなくどう考えて洗択をするのか
この巨大な構造物を宇宙に作ることができた人間	この巨大な構造物を宇宙に作ることができた人間
何かしら嫌いになっていってしまったわけですよね	何にかしら気段になっっていってしまったおけどすね
そんな僕だからこそ言えることは筋肉を変えれば自分が変わってくるし	んな僕らからこスえることは筋肉を変えれば自分が変わってくし
そうするとその言葉を使って未来のイメージを形作っていくことができると	そうするとその言葉を使って未来のイメーージを形作っていことができると

引用方式

如果您想引用此模型，可以使用以下格式：

@misc{Ivydata2023-wav2vec2-xlsr53-large-japanese,
  title={Fine-tuned Japanese Wav2Vec2 model for speech recognition using XLSR-53 large},
  author={Kosuke Suzuki},
  howpublished={\url{https://huggingface.co/Ivydata/wav2vec2-large-xlsr-53-japanese/}},
  year={2023}
}