wav2vec2-large-xlsr-53-japanese開源模型 - 支持日語語音識別，適配16kHz音頻

首頁

Wav2vec2 Large Xlsr 53 Japanese

由Ivydata開發

基於facebook/wav2vec2-large-xlsr-53微調的日語語音識別模型，支持16kHz採樣率音頻輸入

語音識別

Transformers

日語開源協議:Apache-2.0 #日語語音識別 #低CER表現 #多數據集微調

下載量 19

發布時間 : 5/11/2023

模型概述

該模型是在XLSR-53大模型基礎上，使用Common Voice、JVS和JSUT日語數據集微調而成的語音識別模型，專門用於日語語音轉文本任務。

模型特點

多數據集微調

使用Common Voice、JVS和JSUT三個日語數據集進行微調，提高了模型對日語語音的識別能力

無需語言模型

可直接使用，無需額外語言模型支持

高性能

在TEDxJP-10K數據集上CER為27.87%，優於同類日語語音識別模型

模型能力

日語語音識別

16kHz音頻處理

即時語音轉文本

使用案例

語音轉錄

日語會議記錄

將日語會議錄音自動轉換為文字記錄

準確率約72.13%（基於CER指標）

日語字幕生成

為日語視頻內容自動生成字幕

語音助手

日語語音指令識別

用於日語語音助手或智能家居設備的語音指令識別

🚀 用於語音識別的微調日語Wav2Vec2模型（使用XLSR - 53大模型）

本項目是基於facebook/wav2vec2-large-xlsr-53模型，使用Common Voice、JVS和JSUT數據集對日語進行微調後的語音識別模型。使用該模型時，請確保語音輸入的採樣率為16kHz。

🚀 快速開始

本模型可直接使用（無需語言模型），以下是使用示例。

💻 使用示例

基礎用法

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "ja"
MODEL_ID = "Ivydata/wav2vec2-large-xlsr-53-japanese"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference: ", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

📚 詳細文檔

測試結果

下表展示了該模型在TEDxJP - 10K數據集上測試的字符錯誤率（CER）。

模型	字符錯誤率（CER）
Ivydata/wav2vec2-large-xlsr-53-japanese	27.87%
jonatasgrosman/wav2vec2-large-xlsr-53-japanese	34.18%
vumichien/wav2vec2-large-xlsr-japanese	37.72%

測試推理示例

參考文本	預測文本
ただ選択するのではなくどう考えて選択をするのか	ただ洗濯するのではなくどう考えて洗択をするのか
この巨大な構造物を宇宙に作ることができた人間	この巨大な構造物を宇宙に作ることができた人間
何かしら嫌いになっていってしまったわけですよね	何にかしら気段になっっていってしまったおけどすね
そんな僕だからこそ言えることは筋肉を変えれば自分が変わってくるし	んな僕らからこスえることは筋肉を変えれば自分が変わってくし
そうするとその言葉を使って未來のイメージを形作っていくことができると	そうするとその言葉を使って未來のイメーージを形作っていことができると

引用方式

如果您想引用此模型，可以使用以下格式：

@misc{Ivydata2023-wav2vec2-xlsr53-large-japanese,
  title={Fine-tuned Japanese Wav2Vec2 model for speech recognition using XLSR-53 large},
  author={Kosuke Suzuki},
  howpublished={\url{https://huggingface.co/Ivydata/wav2vec2-large-xlsr-53-japanese/}},
  year={2023}
}