Visual-novel-transcriptorオープンソースの日语音声転写モデル、ビジュアルノベルシーンに特化して最適化！

ホーム

Visual Novel Transcriptor

spow12によって開発

distil-whisper/distil-large-v2をファインチューニングした日本語音声認識モデルで、日本語の音声書き起こしに特化し、特にビジュアルノベルのシーンに最適化されています

音声認識

Transformers

複数言語対応#日本語音声書き起こし #ビジュアルノベル最適化 #アニメコンテンツ認識

ダウンロード数 31

リリース時間 : 4/15/2024

モデル概要

これは自動音声認識(ASR)モデルで、主に日本語の音声をテキストに変換するために使用され、ビジュアルノベル内の会話コンテンツの処理に特に適しています

モデル特徴

ビジュアルノベルシーン最適化

ビジュアルノベル内の会話コンテンツに特化して最適化されており、この種の音声をより効果的に処理できます

日本語認識能力

日本語音声認識に特化しており、日本語環境でより優れたパフォーマンスを発揮します

軽量モデル

distil-whisperの軽量バージョンを基にしており、性能を維持しながら計算リソースの需要を削減します

モデル能力

日本語音声からテキストへの変換

英語音声からテキストへの変換

ビジュアルノベル会話認識

使用事例

アニメ関連アプリケーション

ビジュアルノベル書き起こし

ビジュアルノベル内の日本語会話をテキストに変換します

編集可能な会話テキストを生成します

アニメ音声認識

アニメ内の日本語会話コンテンツを認識します

字幕やスクリプトを生成します

🚀 モデルIDのモデルカード

このモデルは、日本語の音声、特にビジュアルノベルの音声を文字起こしすることを目的とした自動音声認識（ASR）モデルです。distil-whisper/distil-large-v2 をファインチューニングして作成されています。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。

from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
import librosa

processor = AutoProcessor.from_pretrained('spow12/Visual-novel-transcriptor', language="ja", task="transcribe")
model = AutoModelForSpeechSeq2Seq.from_pretrained('spow12/Visual-novel-transcriptor').cuda()
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(language="ja", task="transcribe")

data, _ = librosa.load(wav_path, sr=16000)
input_features = processor(data, sampling_rate=16000, return_tensors="pt").input_features.cuda()
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])

✨ 主な機能

日本語の音声、特にビジュアルノベルの音声を高精度に文字起こしします。
関連する他のモデル（TTS、Chat、ASR）とのコレクションが用意されています。
統一されたデモアプリ WaifuAssitant が利用可能です。

📚 ドキュメント

モデルの詳細

モデルの説明

これは🤗 transformersモデルのモデルカードで、自動生成されています。

開発者: spow12(yw_nam)
共有者: spow12(yw_nam)
モデルの種類: Seq2Seq
言語: 日本語
ファインチューニング元のモデル: distil-whisper/distil-large-v2

属性	詳情
モデルの種類	Seq2Seq
学習データ	reazon-research/reazonspeech、joujiboi/japanese-anime-speech
評価指標	CER
パイプラインタグ	自動音声認識
言語	日本語、英語

WaifuModelコレクション

統一デモ

WaifuAssitant

🔧 技術詳細

このモデルは、distil-whisper/distil-large-v2 をベースに、日本語の音声データを用いてファインチューニングされています。特に、ビジュアルノベルの音声を対象として最適化されています。

📄 ライセンス

このモデルは現在、非商用利用のみに許可されています。また、ライセンスに関する詳細は未確定であるため、責任を持って利用していただきたいと思います。

引用

@misc {Visual-novel-transcriptor,
    author       = { YoungWoo Nam },
    title        = { Visual-novel-transcriptor },
    year         = 2024,
    url          = { https://huggingface.co/spow12/Visual-novel-transcriptor },
    publisher    = { Hugging Face }
}