mluke-large-lite開源多語言模型 - 支持24種語言命名實體識別等任務

首頁

Mluke Large Lite

由studio-ousia開發

mLUKE是LUKE的多語言擴展版本，支持24種語言的命名實體識別、關係分類和問答系統任務

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #多語言實體識別 #跨語言關係分類 #維基百科預訓練

下載量 65

發布時間 : 4/13/2022

模型概述

mLUKE是LUKE的多語言擴展版本，基於XLM-RoBERTa大模型初始化，使用24種語言的維基百科數據訓練。精簡版移除了維基百科實體嵌入，僅保留特殊實體標記

模型特點

多語言支持

支持24種語言的文本處理任務

精簡設計

移除了維基百科實體嵌入，保留核心功能

實體感知注意力機制

可選啟用實體感知注意力機制，增強對實體的處理能力

模型能力

多語言文本理解

命名實體識別

關係分類

問答系統

使用案例

自然語言處理

跨語言實體識別

在多語言文本中識別命名實體

關係抽取

從文本中提取實體間的關係

🚀 mLUKE

mLUKE（多語言LUKE）是LUKE的多語言擴展版本。它能夠在多種語言環境下處理命名實體識別、關係分類和問答等任務。

請訪問官方倉庫以獲取更多詳細信息和更新內容。

🚀 快速開始

本模型為mLUKE基礎模型，具有12個隱藏層，隱藏層維度為768。該模型的參數總量為5.61億。模型使用XLM - RoBERTa（大模型）的權重進行初始化，並使用2020年12月版的24種語言的維基百科數據進行訓練。

此模型是studio - ousia/mluke - large的輕量級版本，不包含維基百科實體嵌入，僅包含如[MASK]等特殊實體。

⚠️ 重要提示

當你使用AutoModel.from_pretrained以默認配置加載模型時，會看到以下警告信息：

Some weights of the model checkpoint at studio-ousia/mluke-base-lite were not used when initializing LukeModel: [
'luke.encoder.layer.0.attention.self.w2e_query.weight', 'luke.encoder.layer.0.attention.self.w2e_query.bias', 
'luke.encoder.layer.0.attention.self.e2w_query.weight', 'luke.encoder.layer.0.attention.self.e2w_query.bias', 
'luke.encoder.layer.0.attention.self.e2e_query.weight', 'luke.encoder.layer.0.attention.self.e2e_query.bias', 
...]

這些權重是用於實體感知注意力的權重（如LUKE論文中所述）。這是正常現象，因為默認情況下use_entity_aware_attention設置為false，但預訓練權重中包含了這些權重，以防你啟用use_entity_aware_attention並將這些權重加載到模型中。

📄 許可證

本項目採用Apache 2.0許可證。

📚 引用

如果你發現mLUKE對你的工作有幫助，請引用以下論文：

@inproceedings{ri-etal-2022-mluke,
    title = "m{LUKE}: {T}he Power of Entity Representations in Multilingual Pretrained Language Models",
    author = "Ri, Ryokan  and
      Yamada, Ikuya  and
      Tsuruoka, Yoshimasa",
    booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    year = "2022",
    url = "https://aclanthology.org/2022.acl-long.505",

📋 信息表格

屬性	詳情
支持語言	阿拉伯語、孟加拉語、德語、希臘語、英語、西班牙語、芬蘭語、法語、印地語、印尼語、意大利語、日語、韓語、荷蘭語、波蘭語、葡萄牙語、俄語、瑞典語、斯瓦希里語、泰盧固語、泰語、土耳其語、越南語、中文等
模型類型	多語言LUKE基礎輕量級模型
訓練數據	2020年12月版的24種語言的維基百科數據
模型參數	12個隱藏層，隱藏層維度768，總參數5.61億