模型简介
模型特点
模型能力
使用案例
🚀 KLUE BERT基础模型
KLUE BERT基础模型是一个针对韩语进行预训练的BERT模型。它在韩语语言理解评估(KLUE)基准的开发背景下诞生,可用于多种自然语言处理任务,如主题分类、语义文本相似度计算等。
🚀 快速开始
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
✨ 主要特性
- 多任务适用性:可用于主题分类、语义文本相似度、自然语言推理、命名实体识别等多种任务。
- 韩语优化:专门针对韩语进行预训练,更适合韩语相关的自然语言处理任务。
📦 安装指南
使用以下代码加载模型和分词器:
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
💻 使用示例
基础用法
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
# 示例文本
text = "대한민국의 수도는 [MASK] 입니다."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
高级用法
# 高级场景说明:在实际应用中,可以结合具体任务对模型输出进行进一步处理,例如进行主题分类等。
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("klue/bert-base")
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
text = "대한민국의 수도는 [MASK] 입니다."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
# 后续处理代码可以根据具体任务添加
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | 基于Transformer的语言模型 |
语言 | 韩语 |
许可证 | cc-by-sa-4.0 |
父模型 | 有关BERT基础模型的更多信息,请参阅 BERT基础无大小写模型 |
更多信息资源 | - 研究论文 - GitHub仓库 |
用途
直接使用
该模型可用于包括主题分类、语义文本相似度、自然语言推理、命名实体识别等任务,以及 KLUE基准 中列出的其他任务。
误用和超出范围使用
该模型不应被用于故意为人们创造敌对或疏远的环境。此外,该模型并非用于事实性或真实地呈现人物或事件,因此使用该模型生成此类内容超出了该模型的能力范围。
风险、限制和偏差
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见 Sheng等人 (2021) 和 Bender等人 (2021))。模型开发者在 论文 中讨论了与该模型相关的几个伦理考虑因素,包括:
- 预训练语料库中使用的公开可用数据的偏差问题(以及与过滤相关的考虑)
- 预训练语料库中使用的数据中的个人身份信息(以及对数据进行匿名化的努力)
有关与KLUE基准相关的伦理考虑因素,另请参阅 论文。
训练
训练数据
作者在 相关论文 中描述了用于该模型的以下预训练语料库:
我们从不同来源收集了以下五个公开可用的韩语语料库,以涵盖广泛的主题和多种不同的风格。我们将这些语料库组合起来,构建了最终大小约为62GB的预训练语料库。
- MODU:Modu语料库 是由 韩国国立国语院 分发的韩语语料库集合。它包括正式文章(新闻和书籍)和口语化文本(对话)。
- CC-100-Kor:CC-100 是使用CC-Net (Wenzek等人, 2020) 进行大规模多语言网络爬取的语料库。这用于训练XLM-R (Conneau等人, 2020)。我们使用该语料库中的韩语部分。
- NAMUWIKI:NAMUWIKI是一个基于网络的韩语百科全书,类似于维基百科,但不太正式。具体来说,我们下载了2020年3月2日创建的 转储文件。
- NEWSCRAWL:NEWSCRAWL由2011年至2020年发布的1280万篇新闻文章组成,这些文章是从一个新闻聚合平台收集的。
- PETITION:Petition是向青瓦台提交的关于社会问题行政行动的公共请愿书集合。我们使用 青瓦台国民请愿 中 2017年8月至2019年3月 发布的文章。
作者还在 相关论文 中描述了与预训练语料库相关的伦理考虑因素。
训练过程
预处理
作者在 相关论文 中描述了他们的预处理过程:
我们使用论文第2.3节中的相同方法过滤噪声文本和非韩语文本。语料库中的每个文档都使用基于规则的 韩语句子分割器 (KSS) 的C++实现(v1.3.1)分割成句子。对于CC-100-Kor和NEWSCRAWL,作为一种启发式方法,我们保留长度大于等于200个字符的句子,以保留格式良好的句子。然后,我们使用BM25作为句子相似度度量(参考)移除包含在我们基准任务数据集中的句子。
分词
作者在 相关论文 中描述了他们的分词过程:
我们设计并使用了一种新的分词方法,即基于词素的子词分词。在构建词汇表时,我们使用形态分析器将原始文本预分词为词素,然后应用字节对编码(BPE)(Senrich等人, 2016) 以获得最终的词汇表。对于词素分割,我们使用 Mecab-ko,即适用于韩语的MeCab (Kudo, 2006),对于BPE分割,我们使用 Huggingface分词器库 中的词片分词器。我们将词汇表大小指定为32k。构建词汇表后,我们在推理过程中仅使用BPE模型,这使我们能够在不使用形态分析器的情况下通过反映词素来对单词序列进行分词。这提高了可用性和速度。
训练配置在 论文 中进一步描述。
评估
测试数据、因素和指标
该模型在 KLUE基准 上进行了评估。下面简要描述了用于评估该模型的KLUE基准中的任务和指标。有关KLUE基准的更多信息,请参阅 数据卡片、Github仓库 和 相关论文。
- 任务:主题分类(TC) - 韩联社新闻机构主题分类(YNAT),指标:宏F1分数,定义为按主题的F1分数的平均值,对每个主题给予相同的重要性。
- 任务:语义文本相似度(STS),指标:皮尔逊相关系数(Pearson’ r)和F1分数
- 任务:自然语言推理(NLI),指标:准确率
- 任务:命名实体识别(NER),指标:实体级宏F1(实体F1)和字符级宏F1(字符F1)分数
- 任务:关系提取(RE),指标:关系存在情况下的微F1分数和所有类别的精确召回曲线下面积(AUPRC)
- 任务:依存句法分析(DP),指标:无标签附着分数(UAS)和有标签附着分数(LAS)
- 任务:机器阅读理解(MRC),指标:精确匹配(EM)和字符级ROUGE-W(ROUGE),可以看作是基于最长公共连续子序列(LCCS)的F1分数。
- 任务:对话状态跟踪(DST),指标:联合目标准确率(JGA)和槽微F1分数(槽F1)
结果
任务 | TC | STS | NLI | NER | RE | DP | MRC | DST | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
指标 | F1 | 皮尔逊相关系数 | F1 | 准确率 | 实体F1 | 字符F1 | F1 | AUPRC | UAS | LAS | EM | ROUGE | JGA | 槽F1 |
85.73 | 90.85 | 82.84 | 81.63 | 83.97 | 91.39 | 66.44 | 66.17 | 89.96 | 88.05 | 62.32 | 68.51 | 46.64 | 91.61 |
环境影响
可以使用 Lacoste等人 (2019) 中提出的 机器学习影响计算器 来估算碳排放。我们根据 相关论文 介绍了硬件类型。
- 硬件类型:TPU v3-8
- 使用时长:未知
- 云服务提供商:未知
- 计算区域:未知
- 碳排放:未知
技术规格
有关建模架构(BERT)、目标、计算基础设施和训练细节的详细信息,请参阅 相关论文。
引用信息
@misc{park2021klue,
title={KLUE: Korean Language Understanding Evaluation},
author={Sungjoon Park and Jihyung Moon and Sungdong Kim and Won Ik Cho and Jiyoon Han and Jangwon Park and Chisung Song and Junseong Kim and Yongsook Song and Taehwan Oh and Joohong Lee and Juhyun Oh and Sungwon Lyu and Younghoon Jeong and Inkwon Lee and Sangwoo Seo and Dongjun Lee and Hyunwoo Kim and Myeonghwa Lee and Seongbo Jang and Seungwon Do and Sunkyoung Kim and Kyungtae Lim and Jongwon Lee and Kyumin Park and Jamin Shin and Seonghyun Kim and Lucy Park and Alice Oh and Jungwoo Ha and Kyunghyun Cho},
year={2021},
eprint={2105.09680},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本模型使用cc-by-sa-4.0许可证。



