layoutlm-wikipedia-ja開源模型 - 免費處理日語文檔令牌分類任務

首頁

Layoutlm Wikipedia Ja

由jri-advtechlab開發

這是一個基於日語文本預訓練的LayoutLM模型，主要用於處理日語文檔的令牌分類任務。

大型語言模型

Transformers

日語#日語文檔理解 #佈局感知預訓練 #維基百科信息抽取

下載量 22

發布時間 : 1/31/2024

模型概述

該模型是基於日語維基百科訓練的LayoutLM模型，主要用於微調以完成令牌分類任務，也可用於掩碼語言建模。

模型特點

日語文本處理

專門針對日語文本進行預訓練，適用於日語文檔處理任務。

佈局感知

結合文本內容和佈局信息（如邊界框）進行建模，適用於文檔理解任務。

基於BERT架構

基於cl-tohoku/bert-base-japanese-v2模型進行初始化，繼承了BERT的強大語言理解能力。

模型能力

令牌分類

掩碼語言建模

文檔佈局理解

使用案例

文檔信息提取

維基百科信息提取

從日語維基百科頁面中提取結構化信息

在SHINRA 2022共享任務中獲得55.1451的宏F1分數

🚀 LayoutLM - 日語維基百科模型

這是一個基於日語文本預訓練的 LayoutLM 模型。該模型可用於日語的相關自然語言處理任務，為日語信息處理提供了有力支持。

🚀 快速開始

使用以下代碼開始使用該模型：

>>> from transformers import AutoTokenizer, AutoModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")
>>> model = AutoModel.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")

>>> tokens = tokenizer.tokenize("こんにちは")  # ['こん', '##にち', '##は']
>>> normalized_token_boxes = [[637, 773, 693, 782], [693, 773, 749, 782], [749, 773, 775, 782]]
>>> # add bounding boxes of cls + sep tokens
>>> bbox = [[0, 0, 0, 0]] + normalized_token_boxes + [[1000, 1000, 1000, 1000]]

>>> input_ids = [tokenizer.cls_token_id] \
                + tokenizer.convert_tokens_to_ids(tokens) \
                + [tokenizer.sep_token_id]
>>> attention_mask = [1] * len(input_ids)
>>> token_type_ids = [0] * len(input_ids)
>>> encoding = {
    "input_ids": torch.tensor([input_ids]),
    "attention_mask": torch.tensor([attention_mask]),
    "token_type_ids": torch.tensor([token_type_ids]),
    "bbox": torch.tensor([bbox]),
    }

>>> outputs = model(**encoding)

✨ 主要特性

該模型主要用於在標記分類任務上進行微調。
也可以將原始模型用於掩碼語言建模，不過這並非其主要用例。

📚 詳細文檔

模型詳情

模型描述

屬性	詳情
開發者	日本總研株式會社先進技術實驗室
模型類型	LayoutLM
語言	日語
許可證	[CC BY - SA 3.0](https://creativecommons.org/licenses/by - sa/3.0/)
微調基礎模型	[cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2)

使用說明

該模型主要旨在針對標記分類任務進行微調。雖然可以使用原始模型進行掩碼語言建模，但這並非其主要應用場景。有關如何微調該模型的說明，請參考 <https://github.com/nishiwakikazutaka/shinra2022 - task2_jrird>。請注意，鏈接的倉庫使用日語編寫。

訓練詳情

訓練數據

該模型在日語版維基百科上進行訓練。訓練語料庫作為 [SHINRA 2022 共享任務的訓練數據](https://2022.shinra - project.info/data - download#subtask - common) 分發。

分詞與定位

我們使用 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 的分詞器將文本拆分為標記（子詞）。每個標記都用 <span> 標籤包裹，其中 white - space 屬性設置為 no - wrap，並通過獲取 BoundingClientRect 進行定位。定位過程在 Ubuntu 20.04.5 LTS 上使用 Google Chrome（106.0.5249.119）無頭模式，窗口大小為 1,280 * 854 進行。詞彙表與 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 相同。

訓練過程

該模型使用掩碼視覺語言模型（MVLM）進行訓練，但未使用多標籤文檔分類（MDC）進行訓練。我們做出這個決定是因為在不同的維基百科文章之間未發現顯著的視覺差異，例如合同和發票之間的差異。

預處理

除二維位置嵌入外的所有參數均使用 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 的權重進行初始化。我們使用隨機值初始化二維位置嵌入。

訓練超參數

該模型在 8 個 NVIDIA A100 SXM4 GPU 上訓練 100,000 步，批量大小為 256，最大序列長度為 512。使用的優化器是 Adam，學習率為 5e - 5，β₁ = 0.9，β₂ = 0.999，學習率預熱 1,000 步，之後學習率線性衰減。此外，我們在訓練期間使用了 fp16 混合精度。訓練大約需要 5.3 小時完成。

評估

我們微調後的模型在 SHINRA 2022 共享任務排行榜上的宏 F1 分數達到了 55.1451。你可以在 [https://2022.shinra - project.info/#leaderboard](https://2022.shinra - project.info/#leaderboard) 查看詳細信息。

引用

BibTeX：

@inproceedings{nishiwaki2023layoutlm-wiki-ja,
  title = {日本語情報抽出タスクのための{L}ayout{LM}モデルの評価},
  author = {西脇一尊 and 大沼俊輔 and 門脇一真},
  booktitle = {言語処理學會第29回年次大會(NLP2023)予稿集},
  year = {2023},
  pages = {522--527}
}