Visual Novel Transcriptor
distil-whisper/distil-large-v2をファインチューニングした日本語音声認識モデルで、日本語の音声書き起こしに特化し、特にビジュアルノベルのシーンに最適化されています
ダウンロード数 31
リリース時間 : 4/15/2024
モデル概要
これは自動音声認識(ASR)モデルで、主に日本語の音声をテキストに変換するために使用され、ビジュアルノベル内の会話コンテンツの処理に特に適しています
モデル特徴
ビジュアルノベルシーン最適化
ビジュアルノベル内の会話コンテンツに特化して最適化されており、この種の音声をより効果的に処理できます
日本語認識能力
日本語音声認識に特化しており、日本語環境でより優れたパフォーマンスを発揮します
軽量モデル
distil-whisperの軽量バージョンを基にしており、性能を維持しながら計算リソースの需要を削減します
モデル能力
日本語音声からテキストへの変換
英語音声からテキストへの変換
ビジュアルノベル会話認識
使用事例
アニメ関連アプリケーション
ビジュアルノベル書き起こし
ビジュアルノベル内の日本語会話をテキストに変換します
編集可能な会話テキストを生成します
アニメ音声認識
アニメ内の日本語会話コンテンツを認識します
字幕やスクリプトを生成します
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98