🚀 Whisper Large V3 Turbo - 日本アニメ音声
このモデルは、OpenAIのWhisper Large V3 Turboをベースに、日本アニメの音声に対して微調整された音声認識モデルです。アニメの日本語会話や表現方法に特化して最適化されており、より正確な日本アニメ会話の文字起こしを提供します。
🚀 クイックスタート
このモデルは、OpenAIのopenai/whisper-large-v3-turbo
をベースに、hhim8826/japanese-anime-speech-v2-split
データセットで訓練された自動音声認識(ASR)モデルです。以下に、このモデルの使用方法を説明します。
✨ 主な機能
- 日本アニメの音声に特化した最適化:アニメの特殊な語調、語気、一般的なアニメ用語を考慮して訓練されています。
- 高精度な文字起こし:アニメの会話を正確に文字起こしすることができます。
- 多様な応用:アニメ動画の自動字幕生成、アニメ音声コンテンツ分析、日本語アニメ会話研究、日本語アニメ翻訳支援ツールなどに使用できます。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
asr = pipeline("automatic-speech-recognition", model="hhim8826/whisper-large-v3-turbo-ja")
result = asr("path/to/anime_audio.wav")
print(result["text"])
高度な使用法
from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
import torch
import librosa
processor = AutoProcessor.from_pretrained("hhim8826/whisper-large-v3-turbo-ja")
model = AutoModelForSpeechSeq2Seq.from_pretrained("hhim8826/whisper-large-v3-turbo-ja").to("cuda")
audio_file = 'anime_audio.wav'
audio_array, sampling_rate = librosa.load(audio_file, sr=16000)
inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt").to("cuda")
with torch.no_grad():
generated_ids = model.generate(inputs=inputs.input_features)
transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(transcription)
📚 ドキュメント
モデル詳細
属性 |
詳情 |
モデルタイプ |
自動音声認識 (ASR) |
開発者 |
hhim8826 |
言語 |
日本語 |
ライセンス |
Apache 2.0 |
微調整元モデル |
openai/whisper-large-v3-turbo |
訓練詳細
訓練データ
このモデルは、hhim8826/japanese-anime-speech-v2-split
データセットを使用して訓練されました。このデータセットには、様々な日本アニメの音声クリップとそれに対応する文字起こしが含まれています。
訓練過程
モデルはopenai/whisper-large-v3-turbo
から始まり、アニメ音声の特徴に適応するように微調整されました。過学習を避けるため、適切な反復回数の後に訓練を停止しました。
訓練ハイパーパラメータ
パラメータ |
値 |
学習率 |
1e-5 |
訓練バッチサイズ |
16 |
訓練ステップ |
4000 |
評価結果
このモデルは、アニメ音声テストセットで、元のWhisperモデルに比べて以下の点で改善されています。
- アニメの固有の名詞や特殊用語の処理が向上しています。
- 背景音楽や効果音の干渉下での会話認識能力が向上しています。
- アニメキャラクター特有の語調や話し方をより正確に処理できます。
制限事項
- 主に日本語アニメに最適化されているため、他のタイプの日本語コンテンツでは、専用のモデルほどの性能を発揮しない場合があります。
- 非常にニッチまたは特殊なアニメ用語の認識が不十分な場合があります。
- 非常に速いまたは曖昧な会話の認識には依然として困難がある場合があります。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。詳細については、Apache 2.0ライセンスを参照してください。