Donut Base Japanese Visual Novel
模型简介
Donut模型经过微调,专门用于识别视觉小说风格的图像中的文本内容,包括对话、选项和角色名称。
模型特点
视觉小说专用
专门针对视觉小说风格的图像进行优化,能准确识别对话、选项和角色名称。
布局适应
训练包含多种常见视觉小说布局及其变体,能处理不同排版格式。
注音过滤
设计目标是不受注音假名影响,专注于准确读取正文内容。
UI元素过滤
能尽量避免读取SAVE、LOAD等UI元素及日期显示等非对话内容。
模型能力
视觉小说图像识别
日语文本提取
对话选项解析
角色名称识别
使用案例
游戏开发
视觉小说文本提取
自动识别视觉小说游戏截图中的对话内容和选项
输出结构化JSON格式的对话信息
游戏测试自动化
用于自动化测试视觉小说游戏中的文本显示
验证游戏文本是否正确显示
本地化工具
翻译辅助
提取视觉小说文本用于翻译工作
提供待翻译文本的准确提取
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98