whisper-base-japaneseオープンソースモデル - 日本語音声認識タスクに特化した無料デプロイでの使用

ホーム

Whisper Base Japanese

Ivydataによって開発

このモデルは、Common Voice、JVS、JSUTデータセットを使用してopenai/whisper-baseを日本語向けにファインチューニングしたもので、日本語音声認識タスクに適しています。

音声認識

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語音声認識 #低エラー率 #複数データセットでのトレーニング

ダウンロード数 137

リリース時間 : 5/17/2023

モデル概要

これはWhisperアーキテクチャに基づく日本語音声認識モデルで、日本語音声に特化して最適化されており、日本語音声をテキストに変換できます。

モデル特徴

日本語最適化

日本語音声の特徴に特化してファインチューニングされており、日本語認識の精度が向上しています

複数データセットでのトレーニング

Common Voice、JVS、JSUTの3つの日本語データセットを使用してトレーニングされており、さまざまな音声シナリオをカバーしています

16kHzサンプリングレート対応

16kHzサンプリングレートの音声入力をサポートしており、ほとんどの音声アプリケーションシナリオに適しています

モデル能力

日本語音声からテキストへの変換

連続音声認識

一般的な音声文字起こし

使用事例

音声文字起こし

日本語会議議事録

日本語会議の録音を自動的に文字起こしして議事録を作成

日本語音声アシスタント

日本語音声アシスタントに音声認識機能を提供

教育

日本語学習支援

日本語学習者がスピーキング練習を文字に起こすのを支援

🚀 音声認識用の日本語Whisperモデルのファインチューニング

このモデルは、音声認識のためにopenai/whisper-baseを日本語でファインチューニングしたものです。学習にはCommon Voice、JVS、JSUTのデータセットを使用しています。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは以下のように直接使用することができます。

基本的な使用法

from transformers import WhisperForConditionalGeneration, WhisperProcessor
from datasets import load_dataset
import librosa
import torch

LANG_ID = "ja"
MODEL_ID = "Ivydata/whisper-base-japanese"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
processor = WhisperProcessor.from_pretrained("openai/whisper-base")
model = WhisperForConditionalGeneration.from_pretrained(MODEL_ID)
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(
    language="ja", task="transcribe"
)
model.config.suppress_tokens = []

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    batch["sampling_rate"] = sampling_rate
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
sample = test_dataset[0]
input_features = processor(sample["speech"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
predicted_ids = model.generate(input_features)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
# ['<|startoftranscript|><|ja|><|transcribe|><|notimestamps|>木村さんに電話を貸してもらいました。<|endoftext|>']

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
# ['木村さんに電話を貸してもらいました。']