japanese-wav2vec2-base-rs35kh开源模型 - 免费用于日语自动语音识别任务

首页

Japanese Wav2vec2 Base Rs35kh

由 reazon-research 开发

基于大规模日语自动语音识别语料库ReazonSpeech v2.0微调的wav2vec 2.0 Base模型，适用于日语自动语音识别任务。

语音识别

Transformers

日语开源协议:Apache-2.0 #日语语音识别 #低CER表现 #长音频优化

下载量 3,968

发布时间 : 8/8/2024

模型简介

该模型是在大规模日语自动语音识别（ASR）语料库ReazonSpeech v2.0上微调的wav2vec 2.0 Base模型，主要用于日语自动语音识别任务。

模型特点

大规模日语ASR语料库微调

基于ReazonSpeech v2.0大规模日语自动语音识别语料库进行微调

高效推理

支持flash_attention_2和bfloat16，提高推理效率

优秀性能

在多个测试集上表现优于同类模型

模型能力

日语语音识别

长语音处理

使用案例

语音转文字

日语语音转录

将日语语音转换为文字

平均字符错误率(CER)20.40%

🚀 `japanese-wav2vec2-base-rs35kh`

本模型是在大规模日语自动语音识别（ASR）语料库 ReazonSpeech v2.0 上微调的 wav2vec 2.0 Base 模型。

🚀 快速开始

✨ 主要特性

基于 transformers 库，可方便快捷地使用该模型。
在大规模日语 ASR 语料库上进行了微调，适用于日语自动语音识别任务。

📦 安装指南

文档未提及安装步骤，此部分跳过。

💻 使用示例

基础用法

import librosa
import numpy as np
from transformers import AutoProcessor, Wav2Vec2ForCTC

model = Wav2Vec2ForCTC.from_pretrained(
    "reazon-research/japanese-wav2vec2-base-rs35kh",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
).to("cuda")
processor = AutoProcessor.from_pretrained("reazon-research/japanese-wav2vec2-base-rs35kh")

audio, _ = librosa.load(audio_filepath, sr=16_000)
audio = np.pad(audio, pad_width=int(0.5 * 16_000))  # Recommend to pad audio before inference
input_values = processor(
    audio,
    return_tensors="pt",
    sampling_rate=16_000
).input_values.to("cuda").to(torch.bfloat16)

with torch.inference_mode():
    logits = model(input_values).logits.cpu()
predicted_ids = torch.argmax(logits, dim=-1)[0]
transcription = processor.decode(predicted_ids, skip_special_tokens=True)

📚 详细文档

测试结果

我们报告了本模型和其他 wav2vec2 系列模型的字符错误率（CER）。

常规语音测试结果

模型	参数数量	平均 CER	JSUT - BASIC5000 CER	Common Voice CER	TEDxJP - 10K CER
reazon - research/japanese - wav2vec2 - base - rs35kh	96.7M	20.40%	13.22%	23.76%	24.23%
Ivydata/wav2vec2 - large - xlsr - 53 - japanese	318M	24.23%	13.83%	18.15%	40.72%
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese	317M	31.82%	4.25%	40.58%	50.63%
vumichien/wav2vec2 - large - xlsr - japanese	318M	39.87%	4.21%	53.29%	62.12%

长语音测试结果

模型	参数数量	JSUT - BOOK CER
reazon - research/japanese - wav2vec2 - base - rs35kh	96.7M	82.84%
Ivydata/wav2vec2 - large - xlsr - 53 - japanese	318M	65.60%
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese	317M	46.20%
vumichien/wav2vec2 - large - xlsr - japanese	318M	46.52%

🔧 技术细节

文档未提供具体的技术实现细节，此部分跳过。

📄 许可证

本模型使用 Apache 许可证 2.0。

📖 引用格式

@misc{reazon-research-japanese-wav2vec2-base-rs35kh,
  title={japanese-wav2vec2-base-rs35kh},
  author={Sasaki, Yuta},
  url = {https://huggingface.co/reazon-research/japanese-wav2vec2-base-rs35kh},
  year = {2024}
}