donut-base-japanese-visual-novel開源模型 - 精準識別視覺小說文本與選項

首頁

Donut Base Japanese Visual Novel

由oshizo開發

該模型是在視覺小說風格圖像的合成數據集上對naver-clova-ix/donut-base進行訓練的成果，專門用於識別視覺小說中的文本和選項。

圖像生成文本

Transformers

日語開源協議:MIT #視覺小說文本識別 #日語文檔解析 #遊戲UI提取

下載量 14

發布時間 : 5/3/2023

模型概述

Donut模型經過微調，專門用於識別視覺小說風格的圖像中的文本內容，包括對話、選項和角色名稱。

模型特點

視覺小說專用

專門針對視覺小說風格的圖像進行優化，能準確識別對話、選項和角色名稱。

佈局適應

訓練包含多種常見視覺小說佈局及其變體，能處理不同排版格式。

注音過濾

設計目標是不受注音假名影響，專注於準確讀取正文內容。

UI元素過濾

能儘量避免讀取SAVE、LOAD等UI元素及日期顯示等非對話內容。

模型能力

視覺小說圖像識別

日語文本提取

對話選項解析

角色名稱識別

使用案例

遊戲開發

視覺小說文本提取

自動識別視覺小說遊戲截圖中的對話內容和選項

輸出結構化JSON格式的對話信息

遊戲測試自動化

用於自動化測試視覺小說遊戲中的文本顯示

驗證遊戲文本是否正確顯示

本地化工具

翻譯輔助

提取視覺小說文本用於翻譯工作

提供待翻譯文本的準確提取

🚀 甜甜圈模型（基礎大小模型，在視覺小說風格合成數據集上微調）

這是一個在視覺小說風格圖像的合成數據集上對naver-clova-ix/donut-base進行訓練的模型，可用於相關圖像的識別處理。

🚀 快速開始

請參考示例筆記本sample_predictions_colab.ipynb。你可以通過oshizo/donut-base-japanese-visual-novel獲取相關資源。

💻 使用示例

基礎用法

你可以按照示例筆記本sample_predictions_colab.ipynb中的步驟進行操作。

識別結果示例

以下是一些識別結果的示例，展示了模型對不同視覺小說風格圖像的識別效果。

{'options': '', 'names': '結月', 'messages': '這座神社有個古老的傳說。在神樹之下立下誓言，願望必將實現。敞開心扉，相信自己的想法吧。'}

示例圖片1

{'options': ['走吧！', '這次就算了', '等做好準備再說（退出對話）', '請詳細告訴我旅行的目的'], 'names': '莉蓮', 'messages': '我們的使命是通過新的發現和交流，構築地球與宇宙的未來。你準備好加入這場偉大的旅程了嗎？'}

示例圖片2

{'options': ['全力攻擊！奪取勝利！', '穩健防守，等待敵人的破綻。'], 'names': '', 'messages': '誘敵深入，運用戰術。'}

示例圖片3

{'options': '當然，我會幫忙的！', 'names': '下尾崎菊欠郎', 'messages': '這個書房裡可能藏著重要的線索。你能幫我一起找找嗎？'}

示例圖片4

🔧 技術細節

模型規格

屬性	詳情
模型類型	在視覺小說風格合成數據集上微調的Donut基礎模型
輸出格式	輸出包含`options`、`names`、`messages`三個鍵的JSON

訓練佈局

包含的佈局：訓練數據中包含以下佈局以及各佈局不存在的模式。
未包含的佈局：以下模式等未包含在訓練數據中的模式可能無法被很好地識別。

其他限制

⚠️ 重要提示

由於模型僅在寬度1920px、高度1080px的圖像上進行訓練和評估，當圖像縱橫比差異較大時，識別精度可能會下降。

解碼器的分詞器基於XLMRobertaTokenizer，並額外添加了約1500種日語漢字，因此可能存在分詞器中不存在而無法輸出的漢字。

訓練方法

更多詳細信息可參考以下筆記文章：端到端文檔圖像識別模型Donut微調筆記

📄 許可證

本項目採用MIT許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫