ko-trocr-base-nsmc-news-chatbot开源模型 - 免费部署，支持图像中韩语文本识别

首页

Ko Trocr Base Nsmc News Chatbot

由 daekeun-ml 开发

这是一个针对韩语文本识别的概念验证模型，基于TrOCR架构训练，支持从图像中识别韩语文本。

图像生成文本

Transformers

韩语开源协议:MIT #韩语OCR #图像转文本 #多场景适配

下载量 44

发布时间 : 11/22/2022

模型简介

该模型是一个基于TrOCR架构的韩语文本识别模型，专门用于从图像中提取韩语文本。由于TrOCR尚未发布包含韩语的多语言模型，此模型作为概念验证开发，建议基于该模型收集更多数据进行微调。

模型特点

韩语文本识别

专门针对韩语文本优化的OCR能力，能够准确识别韩语字符

多领域训练数据

使用新闻摘要、电影评论和聊天机器人数据集的混合数据进行训练，提高模型泛化能力

TrOCR架构

基于Transformer的OCR架构，结合视觉编码器和文本解码器

模型能力

韩语文本识别

图像转文本

多领域文本处理

使用案例

文档数字化

新闻文章数字化

将印刷或手写的韩语新闻文章转换为可编辑的文本格式

内容分析

电影评论分析

从图像中提取电影评论文本进行情感分析

聊天机器人

聊天记录处理

识别并处理图像中的韩语聊天记录

🚀 韩文版TrOCR模型（概念验证）

本项目为韩文语言训练了TrOCR模型用于概念验证。由于TrOCR尚未发布包含韩语的多语言模型，我们通过收集特定数据集进行训练。基于此模型，建议收集更多数据进行第一阶段的额外训练或第二阶段的微调。

🚀 快速开始

推理示例

from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoTokenizer
import requests 
from io import BytesIO
from PIL import Image

processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten") 
model = VisionEncoderDecoderModel.from_pretrained("daekeun-ml/ko-trocr-base-nsmc-news-chatbot")
tokenizer = AutoTokenizer.from_pretrained("daekeun-ml/ko-trocr-base-nsmc-news-chatbot")

url = "https://raw.githubusercontent.com/aws-samples/sm-kornlp/main/trocr/sample_imgs/news_1.jpg"
response = requests.get(url)
img = Image.open(BytesIO(response.content))

pixel_values = processor(img, return_tensors="pt").pixel_values 
generated_ids = model.generate(pixel_values, max_length=64)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] 
print(generated_text)

✨ 主要特性

针对韩语进行训练，为韩语的图像文本识别提供了概念验证模型。
基于TrOCR架构，使用了特定的编码器和解码器模型进行训练。

📦 安装指南

文档未提及安装相关内容，可参考作者的Github仓库代码进行环境配置。

📚 详细文档

数据收集

文本数据

我们通过处理三种类型的数据集来创建训练数据：

新闻摘要数据集：https://huggingface.co/datasets/daekeun-ml/naver-news-summarization-ko
Naver电影情感分类数据集：https://github.com/e9t/nsmc
聊天机器人数据集：https://github.com/songys/Chatbot_data

为了高效收集数据，使用句子分隔库（Kiwi Python包装器；https://github.com/bab2min/kiwipiepy）对每个句子进行分隔，最终收集了637,401个样本。

图像数据

图像数据使用TrOCR论文中介绍的TextRecognitionDataGenerator（https://github.com/Belval/TextRecognitionDataGenerator）生成。以下是生成图像的代码片段：

python3 ./trdg/run.py -i ocr_dataset_poc.txt -w 5 -t {num_cores} -f 64 -l ko -c {num_samples} -na 2 --output_dir {dataset_dir}

训练

基础模型

编码器模型使用了facebook/deit-base-distilled-patch16-384，解码器模型使用了klue/roberta-base。这比从microsoft/trocr-base-stage1开始训练权重更容易。

参数

我们使用了启发式参数，没有进行单独的超参数调整：

学习率 = 4e-5
训练轮数 = 25
混合精度训练（fp16） = True
最大长度 = 64

模型使用

所有数据收集和模型训练所需的代码已发布在作者的Github上：

https://github.com/daekeun-ml/sm-kornlp-usecases/tree/main/trocr

🔧 技术细节

本项目基于TrOCR架构，针对韩语进行了特定的训练。在数据收集阶段，通过处理多种文本数据集并使用工具生成图像数据。训练时选择了合适的编码器和解码器模型，并使用启发式参数进行训练，为韩语的图像文本识别提供了一种可行的解决方案。

📄 许可证

本项目使用MIT许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库