whisper-large-v3-turbo-jaオープンソースの日本語アニメ音声認識モデル

ホーム

Whisper Large V3 Turbo Ja

hhim8826によって開発

OpenAI Whisper Large V3 Turboをファインチューニングした日本語アニメ音声認識モデルで、アニメの会話や表現方法の認識能力を最適化しています。

音声認識

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #アニメ音声認識 #日本語ASR最適化 #高文脈適応性

ダウンロード数 188

リリース時間 : 3/8/2025

モデル概要

このモデルは日本のアニメにおける音声内容の認識に特化しており、特殊なイントネーション、話し方、一般的なアニメ用語など、アニメ音声の特徴をより効果的に処理できます。

モデル特徴

アニメ音声最適化

アニメ音声の特徴に合わせてファインチューニングされており、日本語アニメの特殊なイントネーション、話し方、用語をより正確に認識できます。

ノイズ耐性

BGMや効果音が混在する環境下での会話認識能力を向上させています。

固有名詞認識

アニメに登場する固有名詞や特殊な用語をより正確に認識できます。

モデル能力

日本語音声認識

アニメ会話文字起こし

音声内容分析

使用事例

字幕生成

アニメ動画字幕

アニメ動画に自動的に字幕を生成

オリジナルのWhisperモデルと比較して、アニメの会話をより正確に文字起こしできます

内容分析

アニメ音声分析

アニメの音声内容を分析

翻訳支援

日本語アニメ翻訳

日本語アニメ翻訳の補助ツールとして利用

🚀 Whisper Large V3 Turbo - 日本アニメ音声

このモデルは、OpenAIのWhisper Large V3 Turboをベースに、日本アニメの音声に対して微調整された音声認識モデルです。アニメの日本語会話や表現方法に特化して最適化されており、より正確な日本アニメ会話の文字起こしを提供します。

🚀 クイックスタート

このモデルは、OpenAIのopenai/whisper-large-v3-turboをベースに、hhim8826/japanese-anime-speech-v2-splitデータセットで訓練された自動音声認識（ASR）モデルです。以下に、このモデルの使用方法を説明します。

✨ 主な機能

日本アニメの音声に特化した最適化：アニメの特殊な語調、語気、一般的なアニメ用語を考慮して訓練されています。
高精度な文字起こし：アニメの会話を正確に文字起こしすることができます。
多様な応用：アニメ動画の自動字幕生成、アニメ音声コンテンツ分析、日本語アニメ会話研究、日本語アニメ翻訳支援ツールなどに使用できます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import pipeline

asr = pipeline("automatic-speech-recognition", model="hhim8826/whisper-large-v3-turbo-ja")

# 音声ファイルを使用して文字起こしを行う
result = asr("path/to/anime_audio.wav")
print(result["text"])

高度な使用法

from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
import torch
import librosa

# モデルとプロセッサをロードする
processor = AutoProcessor.from_pretrained("hhim8826/whisper-large-v3-turbo-ja")
model = AutoModelForSpeechSeq2Seq.from_pretrained("hhim8826/whisper-large-v3-turbo-ja").to("cuda")

# 音声ファイルをロードする
audio_file = 'anime_audio.wav'
audio_array, sampling_rate = librosa.load(audio_file, sr=16000)

# 音声入力を処理する
inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt").to("cuda")

# 推論を行う
with torch.no_grad():
    generated_ids = model.generate(inputs=inputs.input_features)

# 出力をデコードする
transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(transcription)