layoutlm-wikipedia-ja开源模型 - 免费处理日语文档令牌分类任务

首页

Layoutlm Wikipedia Ja

由 jri-advtechlab 开发

这是一个基于日语文本预训练的LayoutLM模型，主要用于处理日语文档的令牌分类任务。

大型语言模型

Transformers

日语#日语文档理解 #布局感知预训练 #维基百科信息抽取

下载量 22

发布时间 : 1/31/2024

模型简介

该模型是基于日语维基百科训练的LayoutLM模型，主要用于微调以完成令牌分类任务，也可用于掩码语言建模。

模型特点

日语文本处理

专门针对日语文本进行预训练，适用于日语文档处理任务。

布局感知

结合文本内容和布局信息（如边界框）进行建模，适用于文档理解任务。

基于BERT架构

基于cl-tohoku/bert-base-japanese-v2模型进行初始化，继承了BERT的强大语言理解能力。

模型能力

令牌分类

掩码语言建模

文档布局理解

使用案例

文档信息提取

维基百科信息提取

从日语维基百科页面中提取结构化信息

在SHINRA 2022共享任务中获得55.1451的宏F1分数

🚀 LayoutLM - 日语维基百科模型

这是一个基于日语文本预训练的 LayoutLM 模型。该模型可用于日语的相关自然语言处理任务，为日语信息处理提供了有力支持。

🚀 快速开始

使用以下代码开始使用该模型：

>>> from transformers import AutoTokenizer, AutoModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")
>>> model = AutoModel.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")

>>> tokens = tokenizer.tokenize("こんにちは")  # ['こん', '##にち', '##は']
>>> normalized_token_boxes = [[637, 773, 693, 782], [693, 773, 749, 782], [749, 773, 775, 782]]
>>> # add bounding boxes of cls + sep tokens
>>> bbox = [[0, 0, 0, 0]] + normalized_token_boxes + [[1000, 1000, 1000, 1000]]

>>> input_ids = [tokenizer.cls_token_id] \
                + tokenizer.convert_tokens_to_ids(tokens) \
                + [tokenizer.sep_token_id]
>>> attention_mask = [1] * len(input_ids)
>>> token_type_ids = [0] * len(input_ids)
>>> encoding = {
    "input_ids": torch.tensor([input_ids]),
    "attention_mask": torch.tensor([attention_mask]),
    "token_type_ids": torch.tensor([token_type_ids]),
    "bbox": torch.tensor([bbox]),
    }

>>> outputs = model(**encoding)

✨ 主要特性

该模型主要用于在标记分类任务上进行微调。
也可以将原始模型用于掩码语言建模，不过这并非其主要用例。

📚 详细文档

模型详情

模型描述

属性	详情
开发者	日本总研株式会社先进技术实验室
模型类型	LayoutLM
语言	日语
许可证	[CC BY - SA 3.0](https://creativecommons.org/licenses/by - sa/3.0/)
微调基础模型	[cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2)

使用说明

该模型主要旨在针对标记分类任务进行微调。虽然可以使用原始模型进行掩码语言建模，但这并非其主要应用场景。有关如何微调该模型的说明，请参考 <https://github.com/nishiwakikazutaka/shinra2022 - task2_jrird>。请注意，链接的仓库使用日语编写。

训练详情

训练数据

该模型在日语版维基百科上进行训练。训练语料库作为 [SHINRA 2022 共享任务的训练数据](https://2022.shinra - project.info/data - download#subtask - common) 分发。

分词与定位

我们使用 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 的分词器将文本拆分为标记（子词）。每个标记都用 <span> 标签包裹，其中 white - space 属性设置为 no - wrap，并通过获取 BoundingClientRect 进行定位。定位过程在 Ubuntu 20.04.5 LTS 上使用 Google Chrome（106.0.5249.119）无头模式，窗口大小为 1,280 * 854 进行。词汇表与 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 相同。

训练过程

该模型使用掩码视觉语言模型（MVLM）进行训练，但未使用多标签文档分类（MDC）进行训练。我们做出这个决定是因为在不同的维基百科文章之间未发现显著的视觉差异，例如合同和发票之间的差异。

预处理

除二维位置嵌入外的所有参数均使用 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 的权重进行初始化。我们使用随机值初始化二维位置嵌入。

训练超参数

该模型在 8 个 NVIDIA A100 SXM4 GPU 上训练 100,000 步，批量大小为 256，最大序列长度为 512。使用的优化器是 Adam，学习率为 5e - 5，β₁ = 0.9，β₂ = 0.999，学习率预热 1,000 步，之后学习率线性衰减。此外，我们在训练期间使用了 fp16 混合精度。训练大约需要 5.3 小时完成。

评估

我们微调后的模型在 SHINRA 2022 共享任务排行榜上的宏 F1 分数达到了 55.1451。你可以在 [https://2022.shinra - project.info/#leaderboard](https://2022.shinra - project.info/#leaderboard) 查看详细信息。

引用

BibTeX：

@inproceedings{nishiwaki2023layoutlm-wiki-ja,
  title = {日本語情報抽出タスクのための{L}ayout{LM}モデルの評価},
  author = {西脇一尊 and 大沼俊輔 and 門脇一真},
  booktitle = {言語処理学会第29回年次大会(NLP2023)予稿集},
  year = {2023},
  pages = {522--527}
}