🚀 LayoutLM - 日语维基百科模型
这是一个基于日语文本预训练的 LayoutLM 模型。该模型可用于日语的相关自然语言处理任务,为日语信息处理提供了有力支持。
🚀 快速开始
使用以下代码开始使用该模型:
>>> from transformers import AutoTokenizer, AutoModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")
>>> model = AutoModel.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")
>>> tokens = tokenizer.tokenize("こんにちは")
>>> normalized_token_boxes = [[637, 773, 693, 782], [693, 773, 749, 782], [749, 773, 775, 782]]
>>>
>>> bbox = [[0, 0, 0, 0]] + normalized_token_boxes + [[1000, 1000, 1000, 1000]]
>>> input_ids = [tokenizer.cls_token_id] \
+ tokenizer.convert_tokens_to_ids(tokens) \
+ [tokenizer.sep_token_id]
>>> attention_mask = [1] * len(input_ids)
>>> token_type_ids = [0] * len(input_ids)
>>> encoding = {
"input_ids": torch.tensor([input_ids]),
"attention_mask": torch.tensor([attention_mask]),
"token_type_ids": torch.tensor([token_type_ids]),
"bbox": torch.tensor([bbox]),
}
>>> outputs = model(**encoding)
✨ 主要特性
- 该模型主要用于在标记分类任务上进行微调。
- 也可以将原始模型用于掩码语言建模,不过这并非其主要用例。
📚 详细文档
模型详情
模型描述
属性 |
详情 |
开发者 |
日本总研株式会社先进技术实验室 |
模型类型 |
LayoutLM |
语言 |
日语 |
许可证 |
[CC BY - SA 3.0](https://creativecommons.org/licenses/by - sa/3.0/) |
微调基础模型 |
[cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) |
使用说明
该模型主要旨在针对标记分类任务进行微调。虽然可以使用原始模型进行掩码语言建模,但这并非其主要应用场景。有关如何微调该模型的说明,请参考 <https://github.com/nishiwakikazutaka/shinra2022 - task2_jrird>。请注意,链接的仓库使用日语编写。
训练详情
训练数据
该模型在日语版维基百科上进行训练。训练语料库作为 [SHINRA 2022 共享任务的训练数据](https://2022.shinra - project.info/data - download#subtask - common) 分发。
分词与定位
我们使用 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 的分词器将文本拆分为标记(子词)。每个标记都用 <span>
标签包裹,其中 white - space 属性设置为 no - wrap,并通过获取 BoundingClientRect
进行定位。定位过程在 Ubuntu 20.04.5 LTS 上使用 Google Chrome(106.0.5249.119)无头模式,窗口大小为 1,280 * 854 进行。词汇表与 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 相同。
训练过程
该模型使用掩码视觉语言模型(MVLM)进行训练,但未使用多标签文档分类(MDC)进行训练。我们做出这个决定是因为在不同的维基百科文章之间未发现显著的视觉差异,例如合同和发票之间的差异。
预处理
除二维位置嵌入外的所有参数均使用 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 的权重进行初始化。我们使用随机值初始化二维位置嵌入。
训练超参数
该模型在 8 个 NVIDIA A100 SXM4 GPU 上训练 100,000 步,批量大小为 256,最大序列长度为 512。使用的优化器是 Adam,学习率为 5e - 5,β1 = 0.9,β2 = 0.999,学习率预热 1,000 步,之后学习率线性衰减。此外,我们在训练期间使用了 fp16 混合精度。训练大约需要 5.3 小时完成。
评估
我们微调后的模型在 SHINRA 2022 共享任务排行榜上的宏 F1 分数达到了 55.1451。你可以在 [https://2022.shinra - project.info/#leaderboard](https://2022.shinra - project.info/#leaderboard) 查看详细信息。
引用
BibTeX:
@inproceedings{nishiwaki2023layoutlm-wiki-ja,
title = {日本語情報抽出タスクのための{L}ayout{LM}モデルの評価},
author = {西脇一尊 and 大沼俊輔 and 門脇一真},
booktitle = {言語処理学会第29回年次大会(NLP2023)予稿集},
year = {2023},
pages = {522--527}
}
📄 许可证
本模型采用 [CC BY - SA 3.0](https://creativecommons.org/licenses/by - sa/3.0/) 许可证。