Donut Base Japanese Visual Novel
该模型是在视觉小说风格图像的合成数据集上对naver-clova-ix/donut-base进行训练的成果,专门用于识别视觉小说中的文本和选项。
Downloads 14
Release Time : 5/3/2023
Model Overview
Donut模型经过微调,专门用于识别视觉小说风格的图像中的文本内容,包括对话、选项和角色名称。
Model Features
视觉小说专用
专门针对视觉小说风格的图像进行优化,能准确识别对话、选项和角色名称。
布局适应
训练包含多种常见视觉小说布局及其变体,能处理不同排版格式。
注音过滤
设计目标是不受注音假名影响,专注于准确读取正文内容。
UI元素过滤
能尽量避免读取SAVE、LOAD等UI元素及日期显示等非对话内容。
Model Capabilities
视觉小说图像识别
日语文本提取
对话选项解析
角色名称识别
Use Cases
游戏开发
视觉小说文本提取
自动识别视觉小说游戏截图中的对话内容和选项
输出结构化JSON格式的对话信息
游戏测试自动化
用于自动化测试视觉小说游戏中的文本显示
验证游戏文本是否正确显示
本地化工具
翻译辅助
提取视觉小说文本用于翻译工作
提供待翻译文本的准确提取
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 Chinese
R
uer
2,694
98