japanese-wav2vec2-base-rs35kh開源模型 - 免費用於日語自動語音識別任務

首頁

Japanese Wav2vec2 Base Rs35kh

由reazon-research開發

基於大規模日語自動語音識別語料庫ReazonSpeech v2.0微調的wav2vec 2.0 Base模型，適用於日語自動語音識別任務。

語音識別

Transformers

日語開源協議:Apache-2.0 #日語語音識別 #低CER表現 #長音頻優化

下載量 3,968

發布時間 : 8/8/2024

模型概述

該模型是在大規模日語自動語音識別（ASR）語料庫ReazonSpeech v2.0上微調的wav2vec 2.0 Base模型，主要用於日語自動語音識別任務。

模型特點

大規模日語ASR語料庫微調

基於ReazonSpeech v2.0大規模日語自動語音識別語料庫進行微調

高效推理

支持flash_attention_2和bfloat16，提高推理效率

優秀性能

在多個測試集上表現優於同類模型

模型能力

日語語音識別

長語音處理

使用案例

語音轉文字

日語語音轉錄

將日語語音轉換為文字

平均字符錯誤率(CER)20.40%

🚀 `japanese-wav2vec2-base-rs35kh`

本模型是在大規模日語自動語音識別（ASR）語料庫 ReazonSpeech v2.0 上微調的 wav2vec 2.0 Base 模型。

🚀 快速開始

✨ 主要特性

基於 transformers 庫，可方便快捷地使用該模型。
在大規模日語 ASR 語料庫上進行了微調，適用於日語自動語音識別任務。

📦 安裝指南

文檔未提及安裝步驟，此部分跳過。

💻 使用示例

基礎用法

import librosa
import numpy as np
from transformers import AutoProcessor, Wav2Vec2ForCTC

model = Wav2Vec2ForCTC.from_pretrained(
    "reazon-research/japanese-wav2vec2-base-rs35kh",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
).to("cuda")
processor = AutoProcessor.from_pretrained("reazon-research/japanese-wav2vec2-base-rs35kh")

audio, _ = librosa.load(audio_filepath, sr=16_000)
audio = np.pad(audio, pad_width=int(0.5 * 16_000))  # Recommend to pad audio before inference
input_values = processor(
    audio,
    return_tensors="pt",
    sampling_rate=16_000
).input_values.to("cuda").to(torch.bfloat16)

with torch.inference_mode():
    logits = model(input_values).logits.cpu()
predicted_ids = torch.argmax(logits, dim=-1)[0]
transcription = processor.decode(predicted_ids, skip_special_tokens=True)

📚 詳細文檔

測試結果

我們報告了本模型和其他 wav2vec2 系列模型的字符錯誤率（CER）。

常規語音測試結果

模型	參數數量	平均 CER	JSUT - BASIC5000 CER	Common Voice CER	TEDxJP - 10K CER
reazon - research/japanese - wav2vec2 - base - rs35kh	96.7M	20.40%	13.22%	23.76%	24.23%
Ivydata/wav2vec2 - large - xlsr - 53 - japanese	318M	24.23%	13.83%	18.15%	40.72%
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese	317M	31.82%	4.25%	40.58%	50.63%
vumichien/wav2vec2 - large - xlsr - japanese	318M	39.87%	4.21%	53.29%	62.12%

長語音測試結果

模型	參數數量	JSUT - BOOK CER
reazon - research/japanese - wav2vec2 - base - rs35kh	96.7M	82.84%
Ivydata/wav2vec2 - large - xlsr - 53 - japanese	318M	65.60%
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese	317M	46.20%
vumichien/wav2vec2 - large - xlsr - japanese	318M	46.52%

🔧 技術細節

文檔未提供具體的技術實現細節，此部分跳過。

📄 許可證

本模型使用 Apache 許可證 2.0。

📖 引用格式

@misc{reazon-research-japanese-wav2vec2-base-rs35kh,
  title={japanese-wav2vec2-base-rs35kh},
  author={Sasaki, Yuta},
  url = {https://huggingface.co/reazon-research/japanese-wav2vec2-base-rs35kh},
  year = {2024}
}