donut-base-japanese-visual-novel开源模型 - 精准识别视觉小说文本与选项

Home

Donut Base Japanese Visual Novel

Developed by oshizo

该模型是在视觉小说风格图像的合成数据集上对naver-clova-ix/donut-base进行训练的成果，专门用于识别视觉小说中的文本和选项。

图像生成文本

Transformers

JapaneseOpen Source License:MIT #视觉小说文本识别 #日语文档解析 #游戏UI提取

Downloads 14

Release Time : 5/3/2023

Model Overview

Donut模型经过微调，专门用于识别视觉小说风格的图像中的文本内容，包括对话、选项和角色名称。

Model Features

视觉小说专用

专门针对视觉小说风格的图像进行优化，能准确识别对话、选项和角色名称。

布局适应

训练包含多种常见视觉小说布局及其变体，能处理不同排版格式。

注音过滤

设计目标是不受注音假名影响，专注于准确读取正文内容。

UI元素过滤

能尽量避免读取SAVE、LOAD等UI元素及日期显示等非对话内容。

Model Capabilities

视觉小说图像识别

日语文本提取

对话选项解析

角色名称识别

Use Cases

游戏开发

视觉小说文本提取

自动识别视觉小说游戏截图中的对话内容和选项

输出结构化JSON格式的对话信息

游戏测试自动化

用于自动化测试视觉小说游戏中的文本显示

验证游戏文本是否正确显示

本地化工具

翻译辅助

提取视觉小说文本用于翻译工作

提供待翻译文本的准确提取

🚀 甜甜圈模型（基础大小模型，在视觉小说风格合成数据集上微调）

这是一个在视觉小说风格图像的合成数据集上对naver-clova-ix/donut-base进行训练的模型，可用于相关图像的识别处理。

🚀 快速开始

请参考示例笔记本sample_predictions_colab.ipynb。你可以通过oshizo/donut-base-japanese-visual-novel获取相关资源。

💻 使用示例

基础用法

你可以按照示例笔记本sample_predictions_colab.ipynb中的步骤进行操作。

识别结果示例

以下是一些识别结果的示例，展示了模型对不同视觉小说风格图像的识别效果。

{'options': '', 'names': '结月', 'messages': '这座神社有个古老的传说。在神树之下立下誓言，愿望必将实现。敞开心扉，相信自己的想法吧。'}

示例图片1

{'options': ['走吧！', '这次就算了', '等做好准备再说（退出对话）', '请详细告诉我旅行的目的'], 'names': '莉莲', 'messages': '我们的使命是通过新的发现和交流，构筑地球与宇宙的未来。你准备好加入这场伟大的旅程了吗？'}

示例图片2

{'options': ['全力攻击！夺取胜利！', '稳健防守，等待敌人的破绽。'], 'names': '', 'messages': '诱敌深入，运用战术。'}

示例图片3

{'options': '当然，我会帮忙的！', 'names': '下尾崎菊欠郎', 'messages': '这个书房里可能藏着重要的线索。你能帮我一起找找吗？'}

示例图片4

🔧 技术细节

模型规格

属性	详情
模型类型	在视觉小说风格合成数据集上微调的Donut基础模型
输出格式	输出包含`options`、`names`、`messages`三个键的JSON

训练布局

包含的布局：训练数据中包含以下布局以及各布局不存在的模式。
未包含的布局：以下模式等未包含在训练数据中的模式可能无法被很好地识别。

其他限制

⚠️ 重要提示

由于模型仅在宽度1920px、高度1080px的图像上进行训练和评估，当图像纵横比差异较大时，识别精度可能会下降。

解码器的分词器基于XLMRobertaTokenizer，并额外添加了约1500种日语汉字，因此可能存在分词器中不存在而无法输出的汉字。

训练方法

更多详细信息可参考以下笔记文章：端到端文档图像识别模型Donut微调笔记

📄 许可证

本项目采用MIT许可证。

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご