🚀 nlp-waseda/bigbird-base-japanese
这是一个基于日本维基百科、CC - 100的日语部分以及OSCAR的日语部分进行预训练的日语BigBird基础模型,可用于自然语言处理相关任务,为日语的语言理解和生成提供支持。
🚀 快速开始
你可以按如下方式使用此模型进行掩码语言建模:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")
sentence = '[MASK] 大学 で 自然 言語 処理 を 学ぶ 。'
encoding = tokenizer(sentence, return_tensors='pt')
...
你还可以在下游任务中对该模型进行微调。
✨ 主要特性
- 预训练数据丰富:基于日本维基百科、CC - 100的日语部分和OSCAR的日语部分进行预训练。
- 可微调性:能够在下游任务中进行微调以适应不同的自然语言处理需求。
📦 安装指南
文档未提及具体安装步骤,可参考transformers
库的安装方式来获取此模型。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")
sentence = '[MASK] 大学 で 自然 言語 処理 を 学ぶ 。'
encoding = tokenizer(sentence, return_tensors='pt')
...
高级用法
可将此模型在下游任务中进行微调,以适应特定的自然语言处理需求。
📚 详细文档
分词处理
输入文本应预先使用 Juman++ 进行分词。预训练使用的是Juman++ 2.0.0 - rc3版本。每个单词会通过 sentencepiece 分词成标记。
词汇表
词汇表由32000个标记组成,包括单词(JumanDIC)和由 sentencepiece 的一元语言模型生成的子词。
训练过程
该模型在日本维基百科(截至2022年11月1日)、CC - 100的日语部分以及OSCAR的日语部分上进行训练。使用16个NVIDIA A100 GPU,借助 transformers 和 DeepSpeed 进行了为期两周的训练。
预训练期间使用的超参数如下:
属性 |
详情 |
学习率 |
1e - 4 |
每个设备的训练批次大小 |
6 |
梯度累积步数 |
2 |
总训练批次大小 |
192 |
最大序列长度 |
4096 |
训练步数 |
600000 |
热身步数 |
6000 |
混合精度类型 |
bf16 |
DeepSpeed配置文件 |
ds_config.json |
在JGLUE上的性能
我们对以下模型进行了微调,并在JGLUE的开发集上进行了评估。我们根据 JGLUE论文 为每个模型和任务调整了学习率和训练轮数。
对于除MARC - ja之外的任务,由于最大长度较短,因此将注意力类型设置为 "original_full" 并进行微调。对于MARC - ja任务,则同时使用了 "block_sparse" 和 "original_full" 。
模型 |
MARC - ja/准确率 |
JSTS/皮尔逊相关系数 |
JSTS/斯皮尔曼相关系数 |
JNLI/准确率 |
JSQuAD/精确匹配率 |
JSQuAD/F1值 |
JComQA/准确率 |
Waseda RoBERTa base |
0.965 |
0.913 |
0.876 |
0.905 |
0.853 |
0.916 |
0.853 |
Waseda RoBERTa large (seq512) |
0.969 |
0.925 |
0.890 |
0.928 |
0.910 |
0.955 |
0.900 |
BigBird base (original_full) |
0.959 |
0.888 |
0.846 |
0.896 |
0.884 |
0.933 |
0.787 |
BigBird base (block_sparse) |
0.959 |
- |
- |
- |
- |
- |
- |
🔧 技术细节
该模型基于BigBird架构,在日语相关的大规模语料上进行预训练,结合了transformers
和DeepSpeed
库进行高效训练,使用特定的分词工具和超参数设置来优化模型性能。
📄 许可证
本项目采用CC - BY - SA 4.0许可证。