V

Visual Novel Transcriptor

spow12によって開発
distil-whisper/distil-large-v2をファインチューニングした日本語音声認識モデルで、日本語の音声書き起こしに特化し、特にビジュアルノベルのシーンに最適化されています
ダウンロード数 31
リリース時間 : 4/15/2024

モデル概要

これは自動音声認識(ASR)モデルで、主に日本語の音声をテキストに変換するために使用され、ビジュアルノベル内の会話コンテンツの処理に特に適しています

モデル特徴

ビジュアルノベルシーン最適化
ビジュアルノベル内の会話コンテンツに特化して最適化されており、この種の音声をより効果的に処理できます
日本語認識能力
日本語音声認識に特化しており、日本語環境でより優れたパフォーマンスを発揮します
軽量モデル
distil-whisperの軽量バージョンを基にしており、性能を維持しながら計算リソースの需要を削減します

モデル能力

日本語音声からテキストへの変換
英語音声からテキストへの変換
ビジュアルノベル会話認識

使用事例

アニメ関連アプリケーション
ビジュアルノベル書き起こし
ビジュアルノベル内の日本語会話をテキストに変換します
編集可能な会話テキストを生成します
アニメ音声認識
アニメ内の日本語会話コンテンツを認識します
字幕やスクリプトを生成します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase