japanese-wav2vec2-large-rs35kh開源日語自動語音識別模型

首頁

Japanese Wav2vec2 Large Rs35kh

由reazon-research開發

基於wav2vec 2.0 Large架構，在大型日語ASR語料庫ReazonSpeech v2.0上微調而成的日語自動語音識別模型

語音識別

Transformers

日語開源協議:Apache-2.0 #日語語音識別 #大模型微調 #低字符錯誤率

下載量 244

發布時間 : 11/29/2024

模型概述

這是一個高性能的日語自動語音識別(ASR)模型，專門針對日語語音識別任務進行了優化，具有較低的字符錯誤率和良好的長語音識別能力。

模型特點

高性能日語識別

在多個測試集上表現出色，平均字符錯誤率(CER)僅為16.25%

長語音處理能力

特別優化了長語音識別性能，在JSUT-BOOK測試集上CER僅為30.98%

基於大規模數據集訓練

在ReazonSpeech v2.0大型日語ASR語料庫上微調

支持bfloat16和Flash Attention

支持bfloat16數據類型和Flash Attention 2優化，提高推理效率

模型能力

日語語音識別

長語音處理

即時語音轉文字

使用案例

語音轉文字

日語會議記錄

將日語會議錄音自動轉換為文字記錄

平均字符錯誤率16.25%

日語播客轉錄

將日語播客內容轉錄為文字

長語音識別CER 30.98%

語音助手

日語語音指令識別

用於日語語音助手或智能設備的語音指令識別

🚀 `japanese-wav2vec2-large-rs35kh`

本模型是在大規模日語自動語音識別（ASR）語料庫 ReazonSpeech v2.0 上對 wav2vec 2.0 Large 進行微調得到的。它能夠有效提升日語語音識別的準確性和性能，為相關語音處理任務提供強大支持。

🚀 快速開始

✨ 主要特性

基於大規模日語 ASR 語料庫微調，對日語語音識別有更好的效果。
可通過 transformers 庫方便地調用。

📦 安裝指南

文檔未提及安裝步驟，可參考 transformers 庫的官方安裝文檔進行安裝。

💻 使用示例

基礎用法

import librosa
import numpy as np
from transformers import AutoProcessor, Wav2Vec2ForCTC

model = Wav2Vec2ForCTC.from_pretrained(
    "reazon-research/japanese-wav2vec2-large-rs35kh",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
).to("cuda")
processor = AutoProcessor.from_pretrained("reazon-research/japanese-wav2vec2-large-rs35kh")

audio, _ = librosa.load(audio_filepath, sr=16_000)
audio = np.pad(audio, pad_width=int(0.5 * 16_000))  # Recommend to pad audio before inference
input_values = processor(
    audio,
    return_tensors="pt",
    sampling_rate=16_000
).input_values.to("cuda").to(torch.bfloat16)

with torch.inference_mode():
    logits = model(input_values).logits.cpu()
predicted_ids = torch.argmax(logits, dim=-1)[0]
transcription = processor.decode(predicted_ids, skip_special_tokens=True)

📚 詳細文檔

測試結果

我們報告了本模型和其他 wav2vec2 系列模型的字符錯誤率（CER）。

短語音測試結果

模型	參數數量	平均 CER	JSUT - BASIC5000 CER	Common Voice CER	TEDxJP - 10K CER
reazon - research/japanese - wav2vec2 - large - rs35kh	319M	16.25%	11.00%	18.23%	19.53%
reazon - research/japanese - wav2vec2 - base - rs35kh	96.7M	20.40%	13.22%	23.76%	24.23%
Ivydata/wav2vec2 - large - xlsr - 53 - japanese	318M	24.23%	13.83%	18.15%	40.72%
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese	317M	31.82%	4.25%	40.58%	50.63%
vumichien/wav2vec2 - large - xlsr - japanese	318M	39.87%	4.21%	53.29%	62.12%

長語音測試結果

模型	參數數量	JSUT - BOOK CER
reazon - research/japanese - wav2vec2 - large - rs35kh	319M	30.98%
reazon - research/japanese - wav2vec2 - base - rs35kh	96.7M	82.84%
Ivydata/wav2vec2 - large - xlsr - 53 - japanese	318M	65.60%
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese	317M	46.20%
vumichien/wav2vec2 - large - xlsr - japanese	318M	46.52%

🔧 技術細節

本模型基於 wav2vec 2.0 Large 進行微調，使用了大規模的日語 ASR 語料庫 ReazonSpeech v2.0。在微調過程中，通過優化模型參數，使其能夠更好地適應日語語音的特點，從而提高語音識別的準確性。

📄 許可證

本模型採用 Apaceh Licence 2.0 許可證。

引用信息

@misc{reazon-research-japanese-wav2vec2-large-rs35kh,
  title={japanese-wav2vec2-large-rs35kh},
  author={Sasaki, Yuta},
  url = {https://huggingface.co/reazon-research/japanese-wav2vec2-large-rs35kh},
  year = {2024}
}