🚀 LayoutLM - 日語維基百科模型
這是一個基於日語文本預訓練的 LayoutLM 模型。該模型可用於日語的相關自然語言處理任務,為日語信息處理提供了有力支持。
🚀 快速開始
使用以下代碼開始使用該模型:
>>> from transformers import AutoTokenizer, AutoModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")
>>> model = AutoModel.from_pretrained("jri-advtechlab/layoutlm-wikipedia-ja")
>>> tokens = tokenizer.tokenize("こんにちは")
>>> normalized_token_boxes = [[637, 773, 693, 782], [693, 773, 749, 782], [749, 773, 775, 782]]
>>>
>>> bbox = [[0, 0, 0, 0]] + normalized_token_boxes + [[1000, 1000, 1000, 1000]]
>>> input_ids = [tokenizer.cls_token_id] \
+ tokenizer.convert_tokens_to_ids(tokens) \
+ [tokenizer.sep_token_id]
>>> attention_mask = [1] * len(input_ids)
>>> token_type_ids = [0] * len(input_ids)
>>> encoding = {
"input_ids": torch.tensor([input_ids]),
"attention_mask": torch.tensor([attention_mask]),
"token_type_ids": torch.tensor([token_type_ids]),
"bbox": torch.tensor([bbox]),
}
>>> outputs = model(**encoding)
✨ 主要特性
- 該模型主要用於在標記分類任務上進行微調。
- 也可以將原始模型用於掩碼語言建模,不過這並非其主要用例。
📚 詳細文檔
模型詳情
模型描述
屬性 |
詳情 |
開發者 |
日本總研株式會社先進技術實驗室 |
模型類型 |
LayoutLM |
語言 |
日語 |
許可證 |
[CC BY - SA 3.0](https://creativecommons.org/licenses/by - sa/3.0/) |
微調基礎模型 |
[cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) |
使用說明
該模型主要旨在針對標記分類任務進行微調。雖然可以使用原始模型進行掩碼語言建模,但這並非其主要應用場景。有關如何微調該模型的說明,請參考 <https://github.com/nishiwakikazutaka/shinra2022 - task2_jrird>。請注意,鏈接的倉庫使用日語編寫。
訓練詳情
訓練數據
該模型在日語版維基百科上進行訓練。訓練語料庫作為 [SHINRA 2022 共享任務的訓練數據](https://2022.shinra - project.info/data - download#subtask - common) 分發。
分詞與定位
我們使用 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 的分詞器將文本拆分為標記(子詞)。每個標記都用 <span>
標籤包裹,其中 white - space 屬性設置為 no - wrap,並通過獲取 BoundingClientRect
進行定位。定位過程在 Ubuntu 20.04.5 LTS 上使用 Google Chrome(106.0.5249.119)無頭模式,窗口大小為 1,280 * 854 進行。詞彙表與 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 相同。
訓練過程
該模型使用掩碼視覺語言模型(MVLM)進行訓練,但未使用多標籤文檔分類(MDC)進行訓練。我們做出這個決定是因為在不同的維基百科文章之間未發現顯著的視覺差異,例如合同和發票之間的差異。
預處理
除二維位置嵌入外的所有參數均使用 [cl - tohoku/bert - base - japanese - v2](https://huggingface.co/cl - tohoku/bert - base - japanese - v2) 的權重進行初始化。我們使用隨機值初始化二維位置嵌入。
訓練超參數
該模型在 8 個 NVIDIA A100 SXM4 GPU 上訓練 100,000 步,批量大小為 256,最大序列長度為 512。使用的優化器是 Adam,學習率為 5e - 5,β1 = 0.9,β2 = 0.999,學習率預熱 1,000 步,之後學習率線性衰減。此外,我們在訓練期間使用了 fp16 混合精度。訓練大約需要 5.3 小時完成。
評估
我們微調後的模型在 SHINRA 2022 共享任務排行榜上的宏 F1 分數達到了 55.1451。你可以在 [https://2022.shinra - project.info/#leaderboard](https://2022.shinra - project.info/#leaderboard) 查看詳細信息。
引用
BibTeX:
@inproceedings{nishiwaki2023layoutlm-wiki-ja,
title = {日本語情報抽出タスクのための{L}ayout{LM}モデルの評価},
author = {西脇一尊 and 大沼俊輔 and 門脇一真},
booktitle = {言語処理學會第29回年次大會(NLP2023)予稿集},
year = {2023},
pages = {522--527}
}
📄 許可證
本模型採用 [CC BY - SA 3.0](https://creativecommons.org/licenses/by - sa/3.0/) 許可證。