mluke-base開源多語言AI模型 - 支持24種語言命名實體識別等任務

首頁

Mluke Base

由studio-ousia開發

mLUKE是LUKE的多語言擴展版本，支持24種語言的命名實體識別、關係分類和問答系統任務。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #多語言實體識別 #跨語言關係分類 #維基百科預訓練

下載量 64

發布時間 : 3/2/2022

模型概述

mLUKE是基於XLM-RoBERTa初始化的多語言預訓練模型，具有實體感知注意力機制，適用於多種自然語言處理任務。

模型特點

多語言支持

支持24種語言的文本處理，包括主要歐洲和亞洲語言

實體感知注意力

包含特殊的實體嵌入和注意力機制，可更好地處理命名實體

大規模預訓練

基於24種語言維基百科數據進行預訓練，具有強大的跨語言表示能力

模型能力

命名實體識別

關係分類

問答系統

跨語言文本理解

使用案例

信息提取

多語言文檔實體識別

從多語言文檔中識別和分類命名實體

可準確識別24種語言中的實體

知識圖譜構建

跨語言實體關係提取

從多語言文本中提取實體間的關係

支持構建多語言知識圖譜

🚀 mLUKE

mLUKE（多語言LUKE）是LUKE的多語言擴展版本。它支持多種語言，可用於命名實體識別、關係分類和問答等任務。

請訪問官方倉庫以獲取更多詳細信息和更新內容。

本模型是mLUKE基礎模型，具有12個隱藏層，隱藏層大小為768。該模型的參數總數為5.85億（其中詞嵌入和編碼器部分為2.78億，實體嵌入部分為3.07億）。該模型使用XLM - RoBERTa（基礎版）的權重進行初始化，並使用2020年12月版的24種語言的維基百科數據進行訓練。

🚀 快速開始

請參考官方倉庫以獲取使用該模型的詳細步驟。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	多語言LUKE基礎模型
訓練數據	2020年12月版的24種語言的維基百科數據

注意事項

當你使用AutoModel.from_pretrained以默認配置加載模型時，會看到以下警告：

Some weights of the model checkpoint at studio-ousia/mluke-base-lite were not used when initializing LukeModel: [
'luke.encoder.layer.0.attention.self.w2e_query.weight', 'luke.encoder.layer.0.attention.self.w2e_query.bias', 
'luke.encoder.layer.0.attention.self.e2w_query.weight', 'luke.encoder.layer.0.attention.self.e2w_query.bias', 
'luke.encoder.layer.0.attention.self.e2e_query.weight', 'luke.encoder.layer.0.attention.self.e2e_query.bias', 
...]

這些權重是用於實體感知注意力的權重（如LUKE論文中所述）。這是正常現象，因為use_entity_aware_attention默認設置為false，但預訓練權重中包含了這些權重，以便在你啟用use_entity_aware_attention時可以將其加載到模型中。

引用

如果你發現mLUKE對你的工作有幫助，請引用以下論文：

@inproceedings{ri-etal-2022-mluke,
    title = "m{LUKE}: {T}he Power of Entity Representations in Multilingual Pretrained Language Models",
    author = "Ri, Ryokan  and
      Yamada, Ikuya  and
      Tsuruoka, Yoshimasa",
    booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    year = "2022",
    url = "https://aclanthology.org/2022.acl-long.505",