bert-base开源韩语预训练模型 - 免费部署支持多种韩语理解任务

首页

Bert Base

由 klue 开发

基于韩语预训练的BERT模型，由KLUE基准开发团队构建，支持多种韩语理解任务

大型语言模型

Transformers

韩语#韩语理解 #多任务评估 #语素分词

下载量 129.68k

发布时间 : 3/2/2022

模型简介

该模型是基于Transformer架构的韩语预训练语言模型，专为韩语自然语言处理任务设计，可用于主题分类、语义相似度计算、命名实体识别等

模型特点

韩语优化

专门针对韩语特性进行优化，采用基于语素的子词分词方法

多源数据训练

整合五个公开韩语语料库，覆盖多样化主题和文体

全面评估

在KLUE基准的多个任务上进行系统评估

模型能力

主题分类

语义文本相似度计算

自然语言推理

命名实体识别

关系抽取

依存解析

机器阅读理解

对话状态跟踪

使用案例

文本分析

新闻分类

对韩语新闻文章进行自动分类

语义搜索

提高韩语搜索引擎的相关性

信息提取

实体识别

从韩语文本中提取人名、地名等实体

实体F1得分83.97

🚀 KLUE BERT基础模型

KLUE BERT基础模型是一个针对韩语进行预训练的BERT模型。它在韩语语言理解评估（KLUE）基准的开发背景下诞生，可用于多种自然语言处理任务，如主题分类、语义文本相似度计算等。

🚀 快速开始

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

✨ 主要特性

多任务适用性：可用于主题分类、语义文本相似度、自然语言推理、命名实体识别等多种任务。
韩语优化：专门针对韩语进行预训练，更适合韩语相关的自然语言处理任务。

📦 安装指南

使用以下代码加载模型和分词器：

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

💻 使用示例

基础用法

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

# 示例文本
text = "대한민국의 수도는 [MASK] 입니다."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)

高级用法

# 高级场景说明：在实际应用中，可以结合具体任务对模型输出进行进一步处理，例如进行主题分类等。
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")

text = "대한민국의 수도는 [MASK] 입니다."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)

# 后续处理代码可以根据具体任务添加

📚 详细文档

模型详情

属性	详情
模型类型	基于Transformer的语言模型
语言	韩语
许可证	cc-by-sa-4.0
父模型	有关BERT基础模型的更多信息，请参阅 BERT基础无大小写模型
更多信息资源	- 研究论文 - GitHub仓库

用途

直接使用

该模型可用于包括主题分类、语义文本相似度、自然语言推理、命名实体识别等任务，以及 KLUE基准中列出的其他任务。

误用和超出范围使用

该模型不应被用于故意为人们创造敌对或疏远的环境。此外，该模型并非用于事实性或真实地呈现人物或事件，因此使用该模型生成此类内容超出了该模型的能力范围。

风险、限制和偏差

大量研究已经探讨了语言模型的偏差和公平性问题（例如，参见 Sheng等人 (2021) 和 Bender等人 (2021)）。模型开发者在论文中讨论了与该模型相关的几个伦理考虑因素，包括：

预训练语料库中使用的公开可用数据的偏差问题（以及与过滤相关的考虑）
预训练语料库中使用的数据中的个人身份信息（以及对数据进行匿名化的努力）

有关与KLUE基准相关的伦理考虑因素，另请参阅论文。

训练

训练数据

作者在相关论文中描述了用于该模型的以下预训练语料库：

我们从不同来源收集了以下五个公开可用的韩语语料库，以涵盖广泛的主题和多种不同的风格。我们将这些语料库组合起来，构建了最终大小约为62GB的预训练语料库。

MODU：Modu语料库是由韩国国立国语院分发的韩语语料库集合。它包括正式文章（新闻和书籍）和口语化文本（对话）。

CC-100-Kor：CC-100 是使用CC-Net (Wenzek等人, 2020) 进行大规模多语言网络爬取的语料库。这用于训练XLM-R (Conneau等人, 2020)。我们使用该语料库中的韩语部分。

NAMUWIKI：NAMUWIKI是一个基于网络的韩语百科全书，类似于维基百科，但不太正式。具体来说，我们下载了2020年3月2日创建的转储文件。

NEWSCRAWL：NEWSCRAWL由2011年至2020年发布的1280万篇新闻文章组成，这些文章是从一个新闻聚合平台收集的。

PETITION：Petition是向青瓦台提交的关于社会问题行政行动的公共请愿书集合。我们使用青瓦台国民请愿中 2017年8月至2019年3月发布的文章。

作者还在相关论文中描述了与预训练语料库相关的伦理考虑因素。

训练过程

预处理

作者在相关论文中描述了他们的预处理过程：

我们使用论文第2.3节中的相同方法过滤噪声文本和非韩语文本。语料库中的每个文档都使用基于规则的韩语句子分割器 (KSS) 的C++实现（v1.3.1）分割成句子。对于CC-100-Kor和NEWSCRAWL，作为一种启发式方法，我们保留长度大于等于200个字符的句子，以保留格式良好的句子。然后，我们使用BM25作为句子相似度度量（参考）移除包含在我们基准任务数据集中的句子。

分词

作者在相关论文中描述了他们的分词过程：

我们设计并使用了一种新的分词方法，即基于词素的子词分词。在构建词汇表时，我们使用形态分析器将原始文本预分词为词素，然后应用字节对编码（BPE）(Senrich等人, 2016) 以获得最终的词汇表。对于词素分割，我们使用 Mecab-ko，即适用于韩语的MeCab (Kudo, 2006)，对于BPE分割，我们使用 Huggingface分词器库中的词片分词器。我们将词汇表大小指定为32k。构建词汇表后，我们在推理过程中仅使用BPE模型，这使我们能够在不使用形态分析器的情况下通过反映词素来对单词序列进行分词。这提高了可用性和速度。

训练配置在论文中进一步描述。

评估

测试数据、因素和指标

该模型在 KLUE基准上进行了评估。下面简要描述了用于评估该模型的KLUE基准中的任务和指标。有关KLUE基准的更多信息，请参阅数据卡片、Github仓库和相关论文。

任务：主题分类（TC） - 韩联社新闻机构主题分类（YNAT），指标：宏F1分数，定义为按主题的F1分数的平均值，对每个主题给予相同的重要性。
任务：语义文本相似度（STS），指标：皮尔逊相关系数（Pearson’ r）和F1分数
任务：自然语言推理（NLI），指标：准确率
任务：命名实体识别（NER），指标：实体级宏F1（实体F1）和字符级宏F1（字符F1）分数
任务：关系提取（RE），指标：关系存在情况下的微F1分数和所有类别的精确召回曲线下面积（AUPRC）
任务：依存句法分析（DP），指标：无标签附着分数（UAS）和有标签附着分数（LAS）
任务：机器阅读理解（MRC），指标：精确匹配（EM）和字符级ROUGE-W（ROUGE），可以看作是基于最长公共连续子序列（LCCS）的F1分数。
任务：对话状态跟踪（DST），指标：联合目标准确率（JGA）和槽微F1分数（槽F1）

结果

任务	TC	STS		NLI	NER		RE		DP		MRC		DST
指标	F1	皮尔逊相关系数	F1	准确率	实体F1	字符F1	F1	AUPRC	UAS	LAS	EM	ROUGE	JGA	槽F1
	85.73	90.85	82.84	81.63	83.97	91.39	66.44	66.17	89.96	88.05	62.32	68.51	46.64	91.61

环境影响

可以使用 Lacoste等人 (2019) 中提出的机器学习影响计算器来估算碳排放。我们根据相关论文介绍了硬件类型。

硬件类型：TPU v3-8
使用时长：未知
云服务提供商：未知
计算区域：未知
碳排放：未知

技术规格

有关建模架构（BERT）、目标、计算基础设施和训练细节的详细信息，请参阅相关论文。

引用信息

@misc{park2021klue,
      title={KLUE: Korean Language Understanding Evaluation},
      author={Sungjoon Park and Jihyung Moon and Sungdong Kim and Won Ik Cho and Jiyoon Han and Jangwon Park and Chisung Song and Junseong Kim and Yongsook Song and Taehwan Oh and Joohong Lee and Juhyun Oh and Sungwon Lyu and Younghoon Jeong and Inkwon Lee and Sangwoo Seo and Dongjun Lee and Hyunwoo Kim and Myeonghwa Lee and Seongbo Jang and Seungwon Do and Sunkyoung Kim and Kyungtae Lim and Jongwon Lee and Kyumin Park and Jamin Shin and Seonghyun Kim and Lucy Park and Alice Oh and Jungwoo Ha and Kyunghyun Cho},
      year={2021},
      eprint={2105.09680},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}