KR-ELECTRA-generator开源韩语模型 - 出色处理非正式文本任务

首页

KR ELECTRA Generator

由 snunlp 开发

由首尔国立大学开发的韩语专用ELECTRA模型，在非正式文本处理任务中表现优异

大型语言模型

Transformers

韩语#韩语优化 #非正式文本处理 #语素分词

下载量 42.01k

发布时间 : 3/2/2022

模型简介

基于ELECTRA架构的韩语预训练模型，针对韩语文本优化，特别擅长处理评论文档等非正式文本，同时在多种NLP任务上保持优秀性能

模型特点

韩语优化

专门针对韩语特性设计，使用MeCab-Ko形态分析器进行语素单元分词

非正式文本处理优势

在评论文档等非正式文本处理任务中表现尤为突出

平衡训练数据

训练数据包含书面语和口语文本，比例均衡

高效预训练

采用ELECTRA的替换标记检测预训练方法，计算效率高

模型能力

文本分类

命名实体识别

语义相似度计算

问答系统

句子对匹配

仇恨言论检测

使用案例

情感分析

商品评论分析

分析电商平台上的商品评论情感倾向

在NSMC数据集上达到91.168%准确率

信息提取

命名实体识别

从新闻文本中提取人名、地名等实体信息

在Naver NER数据集上F1值达87.90

语义理解

问答系统

构建韩语问答系统

在KorQuaD开发集上精确匹配达84.93，F1值93.04

🚀 基于韩语的ELECTRA（KR - ELECTRA）

这是由首尔国立大学计算语言学实验室开发的特定于韩语的ELECTRA模型，其性能相当或更优。我们的模型在处理如评论文件等非正式文本相关任务时表现卓越，同时在其他类型任务中也能取得相当的成果。

🚀 快速开始

本项目发布了基于韩语的ELECTRA模型KR - ELECTRA，以下将详细介绍模型的相关信息，包括模型细节、训练数据集、词汇表、下载链接、微调方法以及实验结果等。

✨ 主要特性

针对韩语进行预训练，在韩语相关任务中表现出色。
在非正式文本任务（如评论文件）上有显著性能提升。
与其他模型相比，在多个韩语自然语言处理任务中取得了更优的结果。

📦 安装指南

你可以通过以下方式下载使用本模型：

Tensorflow - v1模型（下载）
HuggingFace上的PyTorch模型：

from transformers import ElectraModel, ElectraTokenizer

model = ElectraModel.from_pretrained("snunlp/KR-ELECTRA-discriminator")
tokenizer = ElectraTokenizer.from_pretrained("snunlp/KR-ELECTRA-discriminator")

📚 详细文档

发布的模型

我们按照ELECTRA的基础规模模型对KR - ELECTRA模型进行了预训练。使用谷歌云平台的v3 - 8 TPU，基于Tensorflow - v1对模型进行训练。

模型详情

我们遵循了ELECTRA基础规模模型的训练参数。

超参数

属性	详情
模型类型	判别器层数12，嵌入大小768，隐藏大小768，头数12；生成器层数12，嵌入大小768，隐藏大小256，头数4
训练数据	批大小256，训练步数700000，学习率2e - 4，最大序列长度128，生成器大小0.33333

模型	层数	嵌入大小	隐藏大小	头数
判别器	12	768	768	12
生成器	12	768	256	4

预训练

批大小	训练步数	学习率	最大序列长度	生成器大小
256	700000	2e - 4	128	0.33333

训练数据集

使用了34GB的韩语文本，包括维基百科文档、新闻文章、法律文本、新闻评论、产品评论等。这些文本是平衡的，书面和口语数据的比例相同。

词汇表

词汇表大小为30000。我们基于Mecab - Ko词法分析器，使用基于词素的单元标记作为词汇表。

下载链接

Tensorflow - v1模型（下载）
HuggingFace上的PyTorch模型：

from transformers import ElectraModel, ElectraTokenizer

model = ElectraModel.from_pretrained("snunlp/KR-ELECTRA-discriminator")
tokenizer = ElectraTokenizer.from_pretrained("snunlp/KR-ELECTRA-discriminator")

微调

我们使用并稍微修改了来自KoELECTRA的微调代码，并额外调整了超参数。你可以从我们的GitHub下载我们用于模型的代码和配置文件。

实验结果

	NSMC (准确率)	Naver NER (F1值)	PAWS (准确率)	KorNLI (准确率)	KorSTS (斯皮尔曼系数)	问题对 (准确率)	KorQuaD (开发集) (精确匹配率/F1值)	韩语仇恨言论 (开发集) (F1值)
KoBERT	89.59	87.92	81.25	79.62	81.59	94.85	51.75 / 79.15	66.21
XLM - Roberta - Base	89.03	86.65	82.80	80.23	78.45	93.80	64.70 / 88.94	64.06
HanBERT	90.06	87.70	82.95	80.32	82.73	94.72	78.74 / 92.02	68.32
KoELECTRA - Base	90.33	87.18	81.70	80.64	82.00	93.54	60.86 / 89.28	66.09
KoELECTRA - Base - v2	89.56	87.16	80.70	80.72	82.30	94.85	84.01 / 92.40	67.45
KoELECTRA - Base - v3	90.63	88.11	84.45	82.24	85.53	95.25	84.83 / 93.45	67.61
KR - ELECTRA (我们的模型)	91.168	87.90	82.05	82.51	85.41	95.51	84.93 / 93.04	74.50

基线结果来自KoELECTRA。

引用

@misc{kr-electra,
  author = {Lee, Sangah and Hyopil Shin},
  title = {KR-ELECTRA: a KoRean-based ELECTRA model},
  year = {2022},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snunlp/KR-ELECTRA}}
}