donut-base-japanese-visual-novelオープンソースモデル - ビジュアルノベルのテキストと選択肢を正確に識別する

ホーム

Donut Base Japanese Visual Novel

oshizoによって開発

このモデルはビジュアルノベル風画像の合成データセットでnaver-clova-ix/donut-baseを訓練した成果で、ビジュアルノベル内のテキストや選択肢を認識するために特化しています。

画像生成テキスト

Transformers

日本語オープンソースライセンス:MIT #ビジュアルノベルテキスト認識 #日本語ドキュメント解析 #ゲームUI抽出

ダウンロード数 14

リリース時間 : 5/3/2023

モデル概要

Donutモデルはビジュアルノベル風画像内のテキスト内容（会話、選択肢、キャラクター名など）を認識するためにファインチューニングされています。

モデル特徴

ビジュアルノベル専用

ビジュアルノベル風画像に最適化されており、会話、選択肢、キャラクター名を正確に認識できます。

レイアウト適応

様々なビジュアルノベルレイアウトとそのバリエーションを含む訓練データで、異なる組版形式に対応可能です。

ルビフィルタリング

ルビの影響を受けず、本文内容を正確に読み取ることに焦点を当てています。

UI要素フィルタリング

SAVE、LOADなどのUI要素や日付表示などの非会話内容を極力読み取らないように設計されています。

モデル能力

ビジュアルノベル画像認識

日本語テキスト抽出

会話選択肢解析

キャラクター名識別

使用事例

ゲーム開発

ビジュアルノベルテキスト抽出

ビジュアルノベルゲームスクリーンショットから会話内容と選択肢を自動認識

構造化JSON形式の会話情報を出力

ゲームテスト自動化

ビジュアルノベルゲーム内のテキスト表示を自動テスト

ゲームテキストが正しく表示されているかを検証

ローカライズツール

翻訳支援

翻訳作業用にビジュアルノベルテキストを抽出

翻訳対象テキストの正確な抽出を提供

🚀 Donut (ベースサイズのモデル、ビジュアルノベル風合成データセットでファインチューニング済み)

このモデルは、ビジュアルノベル風画像の合成データセットでnaver - clova - ix/donut - baseを訓練したものです。

🚀 クイックスタート

サンプルノートブックsample_predictions_colab.ipynbを参照してください。 oshizo/donut-base-japanese-visual-novel

💻 使用例

基本的な使用法

認識結果のサンプルは以下の通りです。

{'options': '', 'names': '結月', 'messages': 'この神社には古い言い伝えがあるの。神樹の下で誓いを立てると、その願いは必ず叶うという。心を開いて、自分の想いを信じてみて。'}

サンプル画像1

{'options': ['行こう!', '今回は見送る', '準備を整えるまで待って(会話から抜けます)', '旅の目的について詳しく教えてください'], 'names': 'リリアン', 'messages': '私たちの使命は、新たな発見と交流を通じて地球と宇宙の未来を築くこと。この壮大な旅に参加する準備はできているかしら?'}

サンプル画像2

{'options': ['全力で攻撃する!勝利をつかめ!', '堅実に守り、敵の隙を待とう。'], 'names': '', 'messages': '敵を誘い込んで、戦術を駆使せよ。'}

サンプル画像3

{'options': 'もちろん、手伝います!', 'names': '下尾崎 菊欠郎', 'messages': 'この書斎は重要な手がかりが隠されているかもしれない。君も協力してくれるか?'}

サンプル画像4

📚 ドキュメント

仕様

ルビを読み取りません。ルビが表示されていても影響されずに本文を読み取ることを目標にしています。
SAVE, LOADなどのUI要素と、2日目、4/3などの日付表示をなるべく読み取らないことを目標にしています。
options, names, messsages の3つのキーを持つjsonを出力します。

学習に含むレイアウト

以下のレイアウトと、それぞれのパターンが存在しないパターンが学習データに含まれます。学習に含むレイアウト

学習に含まないレイアウト

以下のようなパターンなど、学習データに含まれないパターンはうまく読み取れません。学習に含まないレイアウト

その他の制約

幅1,920px, 高さ1,080pxの画像でのみ訓練、評価しているため、縦横比が大きく異なる場合認識精度が落ちる可能性があります。
decoderのtokenizerにはXLMRobertaTokenizerをベースに日本語の漢字を1500種類程度追加したものを使用しています。tokenizerに存在せず出力されない漢字が存在します。