bigbird-base-japanese开源日语模型 - 免费用于长序列处理任务

首页

Bigbird Base Japanese

由 nlp-waseda 开发

基于日语维基百科、CC-100和OSCAR数据集预训练的日语BigBird模型，适用于长序列处理任务。

大型语言模型

Transformers

日语#日语长文本处理 #BigBird架构 #Juman++分词

下载量 38

发布时间 : 6/3/2023

模型简介

这是一个基于日语维基百科、CC-100日语部分和OSCAR日语部分预训练的日语BigBird基础模型，主要用于掩码语言建模和下游任务微调。

模型特点

长序列处理

支持最大4096长度的序列处理，适合处理长文本任务。

高效预训练

使用16块NVIDIA A100 GPU和DeepSpeed优化，训练效率高。

专业分词

输入文本需使用Juman++进行专业分词，确保语言处理准确性。

模型能力

日语文本理解

掩码语言建模

长序列处理

下游任务微调

使用案例

文本分类

情感分析

对日语文本进行情感倾向分类

在MARC-ja任务上准确率达到0.959

语义相似度

句子相似度计算

计算两个日语句子的语义相似度

在JSTS任务上皮尔逊系数达到0.888

问答系统

日语阅读理解

基于给定文本回答日语问题

在JSQuAD任务上F1值达到0.933

🚀 nlp-waseda/bigbird-base-japanese

这是一个基于日本维基百科、CC - 100的日语部分以及OSCAR的日语部分进行预训练的日语BigBird基础模型，可用于自然语言处理相关任务，为日语的语言理解和生成提供支持。

🚀 快速开始

你可以按如下方式使用此模型进行掩码语言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")

sentence = '[MASK] 大学 で 自然 言語 処理 を 学ぶ 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

你还可以在下游任务中对该模型进行微调。

✨ 主要特性

预训练数据丰富：基于日本维基百科、CC - 100的日语部分和OSCAR的日语部分进行预训练。
可微调性：能够在下游任务中进行微调以适应不同的自然语言处理需求。

📦 安装指南

文档未提及具体安装步骤，可参考transformers库的安装方式来获取此模型。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")

sentence = '[MASK] 大学 で 自然 言語 処理 を 学ぶ 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

高级用法

可将此模型在下游任务中进行微调，以适应特定的自然语言处理需求。

📚 详细文档

分词处理

输入文本应预先使用 Juman++ 进行分词。预训练使用的是Juman++ 2.0.0 - rc3版本。每个单词会通过 sentencepiece 分词成标记。

词汇表

词汇表由32000个标记组成，包括单词（JumanDIC）和由 sentencepiece 的一元语言模型生成的子词。

训练过程

该模型在日本维基百科（截至2022年11月1日）、CC - 100的日语部分以及OSCAR的日语部分上进行训练。使用16个NVIDIA A100 GPU，借助 transformers 和 DeepSpeed 进行了为期两周的训练。

预训练期间使用的超参数如下：

属性	详情
学习率	1e - 4
每个设备的训练批次大小	6
梯度累积步数	2
总训练批次大小	192
最大序列长度	4096
训练步数	600000
热身步数	6000
混合精度类型	bf16
DeepSpeed配置文件	ds_config.json

在JGLUE上的性能

我们对以下模型进行了微调，并在JGLUE的开发集上进行了评估。我们根据 JGLUE论文为每个模型和任务调整了学习率和训练轮数。

对于除MARC - ja之外的任务，由于最大长度较短，因此将注意力类型设置为 "original_full" 并进行微调。对于MARC - ja任务，则同时使用了 "block_sparse" 和 "original_full" 。

模型	MARC - ja/准确率	JSTS/皮尔逊相关系数	JSTS/斯皮尔曼相关系数	JNLI/准确率	JSQuAD/精确匹配率	JSQuAD/F1值	JComQA/准确率
Waseda RoBERTa base	0.965	0.913	0.876	0.905	0.853	0.916	0.853
Waseda RoBERTa large (seq512)	0.969	0.925	0.890	0.928	0.910	0.955	0.900
BigBird base (original_full)	0.959	0.888	0.846	0.896	0.884	0.933	0.787
BigBird base (block_sparse)	0.959	-	-	-	-	-	-