🚀 japanese-wav2vec2-large-rs35kh
本模型是在大規模日語自動語音識別(ASR)語料庫 ReazonSpeech v2.0 上對 wav2vec 2.0 Large 進行微調得到的。它能夠有效提升日語語音識別的準確性和性能,為相關語音處理任務提供強大支持。
🚀 快速開始
✨ 主要特性
- 基於大規模日語 ASR 語料庫微調,對日語語音識別有更好的效果。
- 可通過
transformers
庫方便地調用。
📦 安裝指南
文檔未提及安裝步驟,可參考 transformers
庫的官方安裝文檔進行安裝。
💻 使用示例
基礎用法
import librosa
import numpy as np
from transformers import AutoProcessor, Wav2Vec2ForCTC
model = Wav2Vec2ForCTC.from_pretrained(
"reazon-research/japanese-wav2vec2-large-rs35kh",
torch_dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
).to("cuda")
processor = AutoProcessor.from_pretrained("reazon-research/japanese-wav2vec2-large-rs35kh")
audio, _ = librosa.load(audio_filepath, sr=16_000)
audio = np.pad(audio, pad_width=int(0.5 * 16_000))
input_values = processor(
audio,
return_tensors="pt",
sampling_rate=16_000
).input_values.to("cuda").to(torch.bfloat16)
with torch.inference_mode():
logits = model(input_values).logits.cpu()
predicted_ids = torch.argmax(logits, dim=-1)[0]
transcription = processor.decode(predicted_ids, skip_special_tokens=True)
📚 詳細文檔
測試結果
我們報告了本模型和其他 wav2vec2 系列模型的字符錯誤率(CER)。
短語音測試結果
模型 |
參數數量 |
平均 CER |
JSUT - BASIC5000 CER |
Common Voice CER |
TEDxJP - 10K CER |
reazon - research/japanese - wav2vec2 - large - rs35kh |
319M |
16.25% |
11.00% |
18.23% |
19.53% |
reazon - research/japanese - wav2vec2 - base - rs35kh |
96.7M |
20.40% |
13.22% |
23.76% |
24.23% |
Ivydata/wav2vec2 - large - xlsr - 53 - japanese |
318M |
24.23% |
13.83% |
18.15% |
40.72% |
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese |
317M |
31.82% |
4.25% |
40.58% |
50.63% |
vumichien/wav2vec2 - large - xlsr - japanese |
318M |
39.87% |
4.21% |
53.29% |
62.12% |
長語音測試結果
模型 |
參數數量 |
JSUT - BOOK CER |
reazon - research/japanese - wav2vec2 - large - rs35kh |
319M |
30.98% |
reazon - research/japanese - wav2vec2 - base - rs35kh |
96.7M |
82.84% |
Ivydata/wav2vec2 - large - xlsr - 53 - japanese |
318M |
65.60% |
jonatasgrosman/wav2vec2 - large - xlsr - 53 - japanese |
317M |
46.20% |
vumichien/wav2vec2 - large - xlsr - japanese |
318M |
46.52% |
🔧 技術細節
本模型基於 wav2vec 2.0 Large 進行微調,使用了大規模的日語 ASR 語料庫 ReazonSpeech v2.0。在微調過程中,通過優化模型參數,使其能夠更好地適應日語語音的特點,從而提高語音識別的準確性。
📄 許可證
本模型採用 Apaceh Licence 2.0 許可證。
引用信息
@misc{reazon-research-japanese-wav2vec2-large-rs35kh,
title={japanese-wav2vec2-large-rs35kh},
author={Sasaki, Yuta},
url = {https://huggingface.co/reazon-research/japanese-wav2vec2-large-rs35kh},
year = {2024}
}