whisper-base-japanese開源模型 - 專為日語語音識別任務免費部署使用

首頁

Whisper Base Japanese

由Ivydata開發

本模型使用Common Voice、JVS和JSUT數據集對openai/whisper-base進行日語微調，適用於日語語音識別任務。

語音識別

Transformers

日語開源協議:Apache-2.0 #日語語音識別 #低錯誤率 #多數據集訓練

下載量 137

發布時間 : 5/17/2023

模型概述

這是一個基於Whisper架構的日語語音識別模型，專門針對日語語音進行了優化，能夠將日語語音轉換為文本。

模型特點

日語優化

專門針對日語語音特點進行了微調，提高了日語識別的準確性

多數據集訓練

使用Common Voice、JVS和JSUT三個日語數據集進行訓練，覆蓋多種語音場景

16kHz採樣率支持

支持16kHz採樣率的語音輸入，適合大多數語音應用場景

模型能力

日語語音轉文本

連續語音識別

通用語音轉錄

使用案例

語音轉錄

日語會議記錄

將日語會議錄音自動轉錄為文字記錄

日語語音助手

為日語語音助手提供語音識別能力

教育

日語學習輔助

幫助日語學習者將口語練習轉錄為文字

🚀 用於語音識別的微調日語Whisper模型

本項目是基於 openai/whisper-base 模型，使用 Common Voice、JVS 和 JSUT 數據集對日語進行微調後的語音識別模型。使用該模型時，請確保輸入的語音採樣率為 16kHz。

🚀 快速開始

本模型可直接按以下方式使用：

from transformers import WhisperForConditionalGeneration, WhisperProcessor
from datasets import load_dataset
import librosa
import torch

LANG_ID = "ja"
MODEL_ID = "Ivydata/whisper-base-japanese"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
processor = WhisperProcessor.from_pretrained("openai/whisper-base")
model = WhisperForConditionalGeneration.from_pretrained(MODEL_ID)
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(
    language="ja", task="transcribe"
)
model.config.suppress_tokens = []

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    batch["sampling_rate"] = sampling_rate
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
sample = test_dataset[0]
input_features = processor(sample["speech"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
predicted_ids = model.generate(input_features)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
# ['<|startoftranscript|><|ja|><|transcribe|><|notimestamps|>木村さんに電話を貸してもらいました。<|endoftext|>']

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
# ['木村さんに電話を貸してもらいました。']

💻 使用示例

基礎用法

from transformers import WhisperForConditionalGeneration, WhisperProcessor
from datasets import load_dataset
import librosa
import torch

LANG_ID = "ja"
MODEL_ID = "Ivydata/whisper-base-japanese"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
processor = WhisperProcessor.from_pretrained("openai/whisper-base")
model = WhisperForConditionalGeneration.from_pretrained(MODEL_ID)
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(
    language="ja", task="transcribe"
)
model.config.suppress_tokens = []

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    batch["sampling_rate"] = sampling_rate
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
sample = test_dataset[0]
input_features = processor(sample["speech"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
predicted_ids = model.generate(input_features)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
# ['<|startoftranscript|><|ja|><|transcribe|><|notimestamps|>木村さんに電話を貸してもらいました。<|endoftext|>']

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
# ['木村さんに電話を貸してもらいました。']