🚀 日本语预训练DeBERTa V3模型
这是一个基于日本语资源进行预训练的 DeBERTa V3 模型。该模型专为日语设计,具有高效、精准等特点,能为日语相关的自然语言处理任务提供强大支持。
🚀 快速开始
以下是使用该模型的示例代码:
from transformers import AutoTokenizer, AutoModelForTokenClassification
model_name = 'globis-university/deberta-v3-japanese-base'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
✨ 主要特性
本模型具备以下显著特征:
- 经典架构:基于知名的 DeBERTa V3 模型构建。
- 日语特化:专门针对日语进行优化,更适配日语处理任务。
- 无需形态素解析:推理过程中无需使用形态素解析器,提升处理效率。
- 尊重单词边界:在一定程度上尊重单词边界,避免生成跨多个单词的标记。
📦 训练数据
数据集名称 |
说明 |
文件大小(含元数据) |
因子 |
Wikipedia |
2023/07;WikiExtractor |
3.5GB |
x2 |
Wikipedia |
2023/07;[cl - tohoku's method](https://github.com/cl - tohoku/bert - japanese/blob/main/make_corpus_wiki.py) |
4.8GB |
x2 |
WikiBooks |
2023/07;[cl - tohoku's method](https://github.com/cl - tohoku/bert - japanese/blob/main/make_corpus_wiki.py) |
43MB |
x2 |
Aozora Bunko |
2023/07;[globis - university/aozorabunko - clean](https://huggingface.co/globis - university/globis - university/aozorabunko - clean) |
496MB |
x4 |
CC - 100 |
ja |
90GB |
x1 |
mC4 |
ja;通过 DSIR 提取10%,聚焦类似维基百科的数据 |
91GB |
x1 |
OSCAR 2023 |
ja;通过 DSIR 提取10%,聚焦类似维基百科的数据 |
26GB |
x1 |
🔧 技术细节
分词器
该分词器采用 工藤氏提出的方法 进行训练,设计时考虑了以下几点:
- 无需形态素解析:推理时无需使用形态素解析器。
- 尊重单词边界:分词结果不会跨越单词边界(使用词典:
unidic - cwj - 202302
)。
- 易于使用:便于在 Hugging Face 平台使用。
- 词汇量适中:采用较小的词汇量,避免嵌入层参数过多。
原 DeBERTa V3 模型以大词汇量为特点,但这会导致嵌入层参数数量大幅增加(对于 [microsoft/deberta - v3 - base](https://huggingface.co/microsoft/deberta - v3 - base) 模型,嵌入层占总量的 54%)。因此,本模型采用了较小的词汇量(32,000)。
需要注意的是,在 xsmall
、base
和 large
这三个模型中,前两个使用 unigram 算法进行训练,而 large
模型使用 BPE 算法训练。原因在于,large
模型为了增加词汇量进行了独立训练,但使用 unigram 算法训练未成功,为了优先完成模型,最终切换到了 BPE 算法。
训练参数
- 设备数量:8
- 批次大小:24 x 8
- 学习率:1.92e - 4
- 最大序列长度:512
- 优化器:AdamW
- 学习率调度器:带热身的线性调度
- 训练步数:1,000,000
- 热身步数:100,000
- 精度:混合精度(fp16)
- 词汇量:32,000
📚 详细文档
评估结果
模型 |
参数数量 |
JSTS |
JNLI |
JSQuAD |
JCQA |
≤ small |
|
|
|
|
|
[izumi - lab/deberta - v2 - small - japanese](https://huggingface.co/izumi - lab/deberta - v2 - small - japanese) |
17.8M |
0.890/0.846 |
0.880 |
- |
0.737 |
[globis - university/deberta - v3 - japanese - xsmall](https://huggingface.co/globis - university/deberta - v3 - japanese - xsmall) |
33.7M |
0.916/0.880 |
0.913 |
0.869/0.938 |
0.821 |
base |
|
|
|
|
|
[cl - tohoku/bert - base - japanese - v3](https://huggingface.co/cl - tohoku/bert - base - japanese - v3) |
111M |
0.919/0.881 |
0.907 |
0.880/0.946 |
0.848 |
[nlp - waseda/roberta - base - japanese](https://huggingface.co/nlp - waseda/roberta - base - japanese) |
111M |
0.913/0.873 |
0.895 |
0.864/0.927 |
0.840 |
[izumi - lab/deberta - v2 - base - japanese](https://huggingface.co/izumi - lab/deberta - v2 - base - japanese) |
110M |
0.919/0.882 |
0.912 |
- |
0.859 |
[ku - nlp/deberta - v2 - base - japanese](https://huggingface.co/ku - nlp/deberta - v2 - base - japanese) |
112M |
0.922/0.886 |
0.922 |
0.899/0.951 |
- |
[ku - nlp/deberta - v3 - base - japanese](https://huggingface.co/ku - nlp/deberta - v3 - base - japanese) |
160M |
0.927/0.891 |
0.927 |
0.896/- |
- |
[globis - university/deberta - v3 - japanese - base](https://huggingface.co/globis - university/deberta - v3 - japanese - base) |
110M |
0.925/0.895 |
0.921 |
0.890/0.950 |
0.886 |
large |
|
|
|
|
|
[cl - tohoku/bert - large - japanese - v2](https://huggingface.co/cl - tohoku/bert - large - japanese - v2) |
337M |
0.926/0.893 |
0.929 |
0.893/0.956 |
0.893 |
[nlp - waseda/roberta - large - japanese](https://huggingface.co/nlp - waseda/roberta - large - japanese) |
337M |
0.930/0.896 |
0.924 |
0.884/0.940 |
0.907 |
[nlp - waseda/roberta - large - japanese - seq512](https://huggingface.co/nlp - waseda/roberta - large - japanese - seq512) |
337M |
0.926/0.892 |
0.926 |
0.918/0.963 |
0.891 |
[ku - nlp/deberta - v2 - large - japanese](https://huggingface.co/ku - nlp/deberta - v2 - large - japanese) |
339M |
0.925/0.892 |
0.924 |
0.912/0.959 |
- |
[globis - university/deberta - v3 - japanese - large](https://huggingface.co/globis - university/deberta - v3 - japanese - large) |
352M |
0.928/0.896 |
0.924 |
0.896/0.956 |
0.900 |
📄 许可证
本模型采用 CC BY SA 4.0 许可证。
🙏 致谢
本项目计算资源使用了 ABCI,在此表示感谢。