🚀 mLUKE
mLUKE(多語言LUKE)是LUKE的多語言擴展版本。它能夠在多種語言環境下處理命名實體識別、關係分類和問答等任務。
請訪問官方倉庫以獲取更多詳細信息和更新內容。
🚀 快速開始
本模型為mLUKE基礎模型,具有12個隱藏層,隱藏層維度為768。該模型的參數總量為5.61億。模型使用XLM - RoBERTa(大模型)的權重進行初始化,並使用2020年12月版的24種語言的維基百科數據進行訓練。
此模型是studio - ousia/mluke - large的輕量級版本,不包含維基百科實體嵌入,僅包含如[MASK]
等特殊實體。
⚠️ 重要提示
當你使用AutoModel.from_pretrained
以默認配置加載模型時,會看到以下警告信息:
Some weights of the model checkpoint at studio-ousia/mluke-base-lite were not used when initializing LukeModel: [
'luke.encoder.layer.0.attention.self.w2e_query.weight', 'luke.encoder.layer.0.attention.self.w2e_query.bias',
'luke.encoder.layer.0.attention.self.e2w_query.weight', 'luke.encoder.layer.0.attention.self.e2w_query.bias',
'luke.encoder.layer.0.attention.self.e2e_query.weight', 'luke.encoder.layer.0.attention.self.e2e_query.bias',
...]
這些權重是用於實體感知注意力的權重(如LUKE論文中所述)。這是正常現象,因為默認情況下use_entity_aware_attention
設置為false
,但預訓練權重中包含了這些權重,以防你啟用use_entity_aware_attention
並將這些權重加載到模型中。
📄 許可證
本項目採用Apache 2.0許可證。
📚 引用
如果你發現mLUKE對你的工作有幫助,請引用以下論文:
@inproceedings{ri-etal-2022-mluke,
title = "m{LUKE}: {T}he Power of Entity Representations in Multilingual Pretrained Language Models",
author = "Ri, Ryokan and
Yamada, Ikuya and
Tsuruoka, Yoshimasa",
booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
year = "2022",
url = "https://aclanthology.org/2022.acl-long.505",
📋 信息表格
屬性 |
詳情 |
支持語言 |
阿拉伯語、孟加拉語、德語、希臘語、英語、西班牙語、芬蘭語、法語、印地語、印尼語、意大利語、日語、韓語、荷蘭語、波蘭語、葡萄牙語、俄語、瑞典語、斯瓦希里語、泰盧固語、泰語、土耳其語、越南語、中文等 |
模型類型 |
多語言LUKE基礎輕量級模型 |
訓練數據 |
2020年12月版的24種語言的維基百科數據 |
模型參數 |
12個隱藏層,隱藏層維度768,總參數5.61億 |