🚀 日语DeBERTa V2基础模型卡片
本模型是基于日语维基百科、CC - 100的日语部分以及OSCAR的日语部分进行预训练的日语DeBERTa V2基础模型,可用于掩码语言建模等自然语言处理任务。
🚀 快速开始
你可以按如下方式使用该模型进行掩码语言建模:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('ku-nlp/deberta-v2-base-japanese')
model = AutoModelForMaskedLM.from_pretrained('ku-nlp/deberta-v2-base-japanese')
sentence = '京都 大学 で 自然 言語 処理 を [MASK] する 。'
encoding = tokenizer(sentence, return_tensors='pt')
...
你还可以在下游任务中对该模型进行微调。
✨ 主要特性
这是一个在日语维基百科、CC - 100的日语部分和OSCAR的日语部分上进行预训练的日语DeBERTa V2基础模型。
📦 安装指南
文档未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained('ku-nlp/deberta-v2-base-japanese')
model = AutoModelForMaskedLM.from_pretrained('ku-nlp/deberta-v2-base-japanese')
sentence = '京都 大学 で 自然 言語 処理 を [MASK] する 。'
encoding = tokenizer(sentence, return_tensors='pt')
...
📚 详细文档
分词
输入文本应预先使用 Juman++ 进行分词。预训练使用的是 Juman++ 2.0.0 - rc3。每个单词会通过 sentencepiece 被分词为子词。
训练数据
预训练使用了以下语料库:
- 日语维基百科(截至2022年10月20日,3.2GB,2700万句子,130万文档)
- CC - 100的日语部分(85GB,6.19亿句子,6600万文档)
- OSCAR的日语部分(54GB,3.26亿句子,2500万文档)
请注意,我们过滤掉了OSCAR中标注有“header”、“footer”或“noisy”标签的文档。此外,日语维基百科被重复了10次,以使语料库的总大小与CC - 100和OSCAR相当。因此,训练数据的总大小为171GB。
训练过程
首先,我们使用 Juman++ 将语料库中的文本分词为单词。然后,我们使用包含单词(JumanDIC)和由 sentencepiece 的unigram语言模型诱导的子词的32000个标记构建了一个sentencepiece模型。
我们使用sentencepiece模型将分词后的语料库分词为子词,并使用 transformers 库训练日语DeBERTa模型。训练使用8个NVIDIA A100 - SXM4 - 40GB GPU,耗时三周。
预训练期间使用了以下超参数:
属性 |
详情 |
学习率 |
2e - 4 |
每个设备的训练批次大小 |
44 |
分布式类型 |
多GPU |
设备数量 |
8 |
梯度累积步数 |
6 |
总训练批次大小 |
2112 |
最大序列长度 |
512 |
优化器 |
Adam,beta=(0.9, 0.999),epsilon = 1e - 06 |
学习率调度器类型 |
带热身的线性调度 |
训练步数 |
500000 |
热身步数 |
10000 |
训练好的模型在掩码语言建模任务上的准确率为0.779。评估集由每个训练语料库中随机抽取的5000个文档组成。
NLU任务微调
我们对以下模型进行了微调,并在JGLUE的开发集上进行了评估。我们根据 JGLUE论文 为每个模型和任务调整了学习率和训练轮数。
模型 |
MARC - ja/准确率 |
JSTS/皮尔逊相关系数 |
JSTS/斯皮尔曼相关系数 |
JNLI/准确率 |
JSQuAD/精确匹配率 |
JSQuAD/F1值 |
JComQA/准确率 |
早稻田RoBERTa基础模型 |
0.965 |
0.913 |
0.876 |
0.905 |
0.853 |
0.916 |
0.853 |
早稻田RoBERTa大模型(序列长度512) |
0.969 |
0.925 |
0.890 |
0.928 |
0.910 |
0.955 |
0.900 |
LUKE日语基础模型* |
0.965 |
0.916 |
0.877 |
0.912 |
- |
- |
0.842 |
LUKE日语大模型* |
0.965 |
0.932 |
0.902 |
0.927 |
- |
- |
0.893 |
DeBERTaV2基础模型 |
0.970 |
0.922 |
0.886 |
0.922 |
0.899 |
0.951 |
0.873 |
DeBERTaV2大模型 |
0.968 |
0.925 |
0.892 |
0.924 |
0.912 |
0.959 |
0.890 |
*LUKE的分数来自 官方仓库。
🔧 技术细节
训练使用8个NVIDIA A100 - SXM4 - 40GB GPU,耗时三周。预训练期间使用了一系列特定的超参数,训练好的模型在掩码语言建模任务上的准确率为0.779。评估集由每个训练语料库中随机抽取的5000个文档组成。
📄 许可证
本项目采用CC - BY - SA 4.0许可证。