🚀 基于韩语的ELECTRA(KR - ELECTRA)
这是由首尔国立大学计算语言学实验室开发的特定于韩语的ELECTRA模型,其性能相当或更优。我们的模型在处理如评论文件等非正式文本相关任务时表现卓越,同时在其他类型任务中也能取得相当的成果。
🚀 快速开始
本项目发布了基于韩语的ELECTRA模型KR - ELECTRA,以下将详细介绍模型的相关信息,包括模型细节、训练数据集、词汇表、下载链接、微调方法以及实验结果等。
✨ 主要特性
- 针对韩语进行预训练,在韩语相关任务中表现出色。
- 在非正式文本任务(如评论文件)上有显著性能提升。
- 与其他模型相比,在多个韩语自然语言处理任务中取得了更优的结果。
📦 安装指南
你可以通过以下方式下载使用本模型:
- Tensorflow - v1模型(下载)
- HuggingFace上的PyTorch模型:
from transformers import ElectraModel, ElectraTokenizer
model = ElectraModel.from_pretrained("snunlp/KR-ELECTRA-discriminator")
tokenizer = ElectraTokenizer.from_pretrained("snunlp/KR-ELECTRA-discriminator")
📚 详细文档
发布的模型
我们按照ELECTRA的基础规模模型对KR - ELECTRA模型进行了预训练。使用谷歌云平台的v3 - 8 TPU,基于Tensorflow - v1对模型进行训练。
模型详情
我们遵循了ELECTRA基础规模模型的训练参数。
超参数
属性 |
详情 |
模型类型 |
判别器层数12,嵌入大小768,隐藏大小768,头数12;生成器层数12,嵌入大小768,隐藏大小256,头数4 |
训练数据 |
批大小256,训练步数700000,学习率2e - 4,最大序列长度128,生成器大小0.33333 |
模型 |
层数 |
嵌入大小 |
隐藏大小 |
头数 |
判别器 |
12 |
768 |
768 |
12 |
生成器 |
12 |
768 |
256 |
4 |
预训练
批大小 |
训练步数 |
学习率 |
最大序列长度 |
生成器大小 |
256 |
700000 |
2e - 4 |
128 |
0.33333 |
训练数据集
使用了34GB的韩语文本,包括维基百科文档、新闻文章、法律文本、新闻评论、产品评论等。这些文本是平衡的,书面和口语数据的比例相同。
词汇表
词汇表大小为30000。我们基于Mecab - Ko词法分析器,使用基于词素的单元标记作为词汇表。
下载链接
- Tensorflow - v1模型(下载)
- HuggingFace上的PyTorch模型:
from transformers import ElectraModel, ElectraTokenizer
model = ElectraModel.from_pretrained("snunlp/KR-ELECTRA-discriminator")
tokenizer = ElectraTokenizer.from_pretrained("snunlp/KR-ELECTRA-discriminator")
微调
我们使用并稍微修改了来自KoELECTRA的微调代码,并额外调整了超参数。你可以从我们的GitHub下载我们用于模型的代码和配置文件。
实验结果
|
NSMC (准确率) |
Naver NER (F1值) |
PAWS (准确率) |
KorNLI (准确率) |
KorSTS (斯皮尔曼系数) |
问题对 (准确率) |
KorQuaD (开发集) (精确匹配率/F1值) |
韩语仇恨言论 (开发集) (F1值) |
KoBERT |
89.59 |
87.92 |
81.25 |
79.62 |
81.59 |
94.85 |
51.75 / 79.15 |
66.21 |
XLM - Roberta - Base |
89.03 |
86.65 |
82.80 |
80.23 |
78.45 |
93.80 |
64.70 / 88.94 |
64.06 |
HanBERT |
90.06 |
87.70 |
82.95 |
80.32 |
82.73 |
94.72 |
78.74 / 92.02 |
68.32 |
KoELECTRA - Base |
90.33 |
87.18 |
81.70 |
80.64 |
82.00 |
93.54 |
60.86 / 89.28 |
66.09 |
KoELECTRA - Base - v2 |
89.56 |
87.16 |
80.70 |
80.72 |
82.30 |
94.85 |
84.01 / 92.40 |
67.45 |
KoELECTRA - Base - v3 |
90.63 |
88.11 |
84.45 |
82.24 |
85.53 |
95.25 |
84.83 / 93.45 |
67.61 |
KR - ELECTRA (我们的模型) |
91.168 |
87.90 |
82.05 |
82.51 |
85.41 |
95.51 |
84.93 / 93.04 |
74.50 |
基线结果来自KoELECTRA。
引用
@misc{kr-electra,
author = {Lee, Sangah and Hyopil Shin},
title = {KR-ELECTRA: a KoRean-based ELECTRA model},
year = {2022},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snunlp/KR-ELECTRA}}
}