whisper-small-japaneseオープンソース日本語音声認識モデル - 無料で日本語音声をテキストに変換する

ホーム

Whisper Small Japanese

Ivydataによって開発

このモデルはopenai/whisper-smallをファインチューニングした日本語音声認識モデルで、日本語音声からテキストへの変換タスクをサポートします。

音声認識

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語音声認識 #低CER #複数データセット訓練

ダウンロード数 356

リリース時間 : 5/19/2023

モデル概要

Common Voice、JVS、JSUTデータセットを使用してopenai/whisper-smallを日本語用にファインチューニングしており、日本語音声認識タスクに適しています。

モデル特徴

日本語最適化

日本語音声に特化してファインチューニングされており、汎用モデルよりも優れた認識効果を発揮します

複数データセット訓練

Common Voice、JVS、JSUT複数の日本語データセットを組み合わせて訓練しています

16kHzサンプリングレート対応

16kHzサンプリングレートの音声入力をサポートしています

モデル能力

日本語音声認識

音声からテキストへの変換

使用事例

音声文字起こし

日本語会議議事録

日本語会議の録音を文字記録に変換します

日本語字幕生成

日本語動画コンテンツに自動的に字幕を生成します

🚀 日本語音声認識用Fine-tuned Whisperモデル

このモデルは、音声認識タスクに特化したFine-tunedモデルです。openai/whisper-small を日本語でFine-tuningし、高精度な音声認識を実現します。

🚀 クイックスタート

このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

💻 使用例

基本的な使用法

from transformers import WhisperForConditionalGeneration, WhisperProcessor
from datasets import load_dataset
import librosa
import torch

LANG_ID = "ja"
MODEL_ID = "Ivydata/whisper-small-japanese"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
processor = WhisperProcessor.from_pretrained(MODEL_ID)
model = WhisperForConditionalGeneration.from_pretrained(MODEL_ID)
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(
    language="ja", task="transcribe"
)
model.config.suppress_tokens = []

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    batch["sampling_rate"] = sampling_rate
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
sample = test_dataset[0]
input_features = processor(sample["speech"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
predicted_ids = model.generate(input_features)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
# ['<|startoftranscript|><|ja|><|transcribe|><|notimestamps|>木村さんに電話を貸してもらいました。<|endoftext|>']

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
# ['木村さんに電話を貸してもらいました。']