Visual-novel-transcriptor開源日語音頻轉寫模型，專為視覺小說場景優化！

首頁

Visual Novel Transcriptor

由spow12開發

基於distil-whisper/distil-large-v2微調的日語語音識別模型，專為日語音頻轉寫設計，特別針對視覺小說場景優化

語音識別

Transformers

支持多種語言#日語音頻轉寫 #視覺小說優化 #動漫內容識別

下載量 31

發布時間 : 4/15/2024

模型概述

這是一個自動語音識別(ASR)模型，主要用於將日語語音轉換為文本，特別適合處理視覺小說中的對話內容

模型特點

視覺小說場景優化

專門針對視覺小說中的對話內容進行優化，能夠更好地處理這類音頻

日語識別能力

專注於日語語音識別，在日語環境下表現更佳

輕量級模型

基於distil-whisper的輕量級版本，在保持性能的同時減少計算資源需求

模型能力

日語語音轉文本

英語語音轉文本

視覺小說對話識別

使用案例

動漫相關應用

視覺小說轉錄

將視覺小說中的日語對話轉換為文本

生成可編輯的對話文本

動漫語音識別

識別動漫中的日語對話內容

生成字幕或腳本

🚀 視覺小說轉錄器模型

這是一個經過微調的自動語音識別（ASR）模型，專門用於轉錄日語音頻，尤其適用於視覺小說領域。它基於distil-whisper/distil-large-v2模型進行微調，為相關領域的音頻轉錄提供了高效準確的解決方案。

🚀 快速開始

模型使用示例

from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
import librosa

processor = AutoProcessor.from_pretrained('spow12/Visual-novel-transcriptor', language="ja", task="transcribe")
model = AutoModelForSpeechSeq2Seq.from_pretrained('spow12/Visual-novel-transcriptor').cuda()
model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(language="ja", task="transcribe")

data, _ = librosa.load(wav_path, sr=16000)
input_features = processor(data, sampling_rate=16000, return_tensors="pt").input_features.cuda()
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])

✨ 主要特性

針對性微調：針對日語音頻尤其是視覺小說音頻進行了微調，提高了轉錄的準確性。
多語言支持：支持日語和英語。
多模型集合：與TTS、Chat等模型共同構成WaifuModel集合，提供更全面的功能。

📚 詳細文檔

模型詳情

模型描述

這是一個🤗 Transformers模型的模型卡片，已被推送到Hugging Face Hub，此模型卡片是自動生成的。

屬性	詳情
開發者	spow12(yw_nam)
共享者	spow12(yw_nam)
模型類型	Seq2Seq
支持語言（NLP）	日語
微調基礎模型	distil-whisper/distil-large-v2

模型相關鏈接

WaifuModel集合

統一演示

WaifuAssitant

模型使用與版權

此模型目前僅可用於非商業用途。由於開發者對許可細節瞭解有限，希望使用者能負責任地使用該模型。開發者分享此模型，旨在為開源社區和動漫愛好者的研究工作做出貢獻。

引用信息

@misc {Visual-novel-transcriptor,
    author       = { YoungWoo Nam },
    title        = { Visual-novel-transcriptor },
    year         = 2024,
    url          = { https://huggingface.co/spow12/Visual-novel-transcriptor },
    publisher    = { Hugging Face }
}