marefa - ner開源阿拉伯語命名實體識別模型，輕鬆識別9種不同類型實體！

首頁

Marefa Ner

由marefa-nlp開發

一個基於全新數據集構建的大型阿拉伯語命名實體識別（NER）模型，能識別9種不同類型的實體

序列標註

Transformers

阿拉伯語#阿拉伯語NER #多類別實體識別 #高精度F1

下載量 4,380

發布時間 : 3/2/2022

模型概述

該模型是一個文本片段分類知識模型，專門用於阿拉伯語文本中的命名實體識別，支持識別人物、地點、組織等多種實體類型。

模型特點

多類別實體識別

能夠識別多達9種不同類型的實體，包括人物、地點、組織等

全新訓練數據

基於完全重構的訓練數據集構建，數據質量高

高精度識別

在測試集上表現出色，特別是人物識別F1分數達到0.93

模型能力

阿拉伯語文本處理

命名實體識別

文本片段分類

使用案例

新聞分析

新聞事件分析

從新聞文本中提取人物、地點、組織等關鍵信息

可準確識別如'在開羅體育場，非洲國家杯開幕式在共和國總統和國際足聯主席的出席下舉行'中的實體

社交媒體分析

社交媒體內容分析

分析阿拉伯語社交媒體內容中的關鍵實體

🚀 泰比安（Tebyan）

基於全新數據集構建的大型阿拉伯語命名實體識別（NER）模型，可提取多達9種不同類型的實體

模型信息

屬性	詳情
模型類型	Marefa阿拉伯語命名實體識別模型
訓練數據	Marefa-NER

模型展示

版本：1.3

最後更新：2021年12月3日

✨ 主要特性

Marefa-NER 是一個大型阿拉伯語命名實體識別（NER）模型，它基於全新的數據集構建，旨在提取多達9種不同類型的實體：

人物、地點、組織、國籍、職業、產品、事件、時間、藝術作品

這是一個全新的文本部分分類知識模型，特別是在模型訓練所使用的數據方面。該模型還旨在對多達9種不同類型的文本部分進行分類：

人物 - 地點 - 組織 - 國籍 - 職業 - 產品 - 事件 - 時間 - 藝術作品

🚀 快速開始

📦 安裝指南

安裝以下Python包：

$ pip3 install transformers==4.8.0 nltk==3.5 protobuf==3.15.3 torch==1.9.0

⚠️ 重要提示

如果你使用的是 Google Colab，請在安裝包後重啟運行時。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

import numpy as np
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

custom_labels = ["O", "B-job", "I-job", "B-nationality", "B-person", "I-person", "B-location","B-time", "I-time", "B-event", "I-event", "B-organization", "I-organization", "I-location", "I-nationality", "B-product", "I-product", "B-artwork", "I-artwork"]

def _extract_ner(text: str, model: AutoModelForTokenClassification,
                 tokenizer: AutoTokenizer, start_token: str="▁"):
    tokenized_sentence = tokenizer([text], padding=True, truncation=True, return_tensors="pt")
    tokenized_sentences = tokenized_sentence['input_ids'].numpy()

    with torch.no_grad():
        output = model(**tokenized_sentence)

    last_hidden_states = output[0].numpy()
    label_indices = np.argmax(last_hidden_states[0], axis=1)
    tokens = tokenizer.convert_ids_to_tokens(tokenized_sentences[0])
    special_tags = set(tokenizer.special_tokens_map.values())

    grouped_tokens = []
    for token, label_idx in zip(tokens, label_indices):
        if token not in special_tags:
            if not token.startswith(start_token) and len(token.replace(start_token,"").strip()) > 0:
                grouped_tokens[-1]["token"] += token
            else:
                grouped_tokens.append({"token": token, "label": custom_labels[label_idx]})

    # extract entities
    ents = []
    prev_label = "O"
    for token in grouped_tokens:
        label = token["label"].replace("I-","").replace("B-","")
        if token["label"] != "O":
            
            if label != prev_label:
                ents.append({"token": [token["token"]], "label": label})
            else:
                ents[-1]["token"].append(token["token"])
            
        prev_label = label
    
    # group tokens
    ents = [{"token": "".join(rec["token"]).replace(start_token," ").strip(), "label": rec["label"]}  for rec in ents ]

    return ents

model_cp = "marefa-nlp/marefa-ner"

tokenizer = AutoTokenizer.from_pretrained(model_cp)
model = AutoModelForTokenClassification.from_pretrained(model_cp, num_labels=len(custom_labels))

samples = [
    "تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م. تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده",
    "بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته",
    "في استاد القاهرة، قام حفل افتتاح بطولة كأس الأمم الأفريقية بحضور رئيس الجمهورية و رئيس الاتحاد الدولي لكرة القدم",
    "من فضلك أرسل هذا البريد الى صديقي جلال الدين في تمام الساعة الخامسة صباحا في يوم الثلاثاء القادم",
    "امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في غياب الدون كرستيانو رونالدو",
    "لا تنسى تصحيني الساعة سبعة, و ضيف في الجدول اني احضر مباراة نادي النصر غدا",
]

# [optional]
samples = [ " ".join(word_tokenize(sample.strip())) for sample in samples if sample.strip() != "" ]

for sample in samples:
    ents = _extract_ner(text=sample, model=model, tokenizer=tokenizer, start_token="▁")

    print(sample)
    for ent in ents:
        print("\t",ent["token"],"==>",ent["label"])
    print("========\n")

輸出示例

تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م . تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده
	 الأزهر ==> organization
	 عام 1873م ==> time
	 السيد جمال الدين الأفغاني ==> person
	 محمد عبده ==> person
========

بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته
	 القاهرة، ==> location
	 نجيب الريحاني ==> person
	 فرقة جورج أبيض، ==> organization
	 فرقة سلامة حجازي ==> organization
========

في استاد القاهرة، قام حفل افتتاح بطولة كأس الأمم الأفريقية بحضور رئيس الجمهورية و رئيس الاتحاد الدولي لكرة القدم
	 استاد القاهرة، ==> location
	 بطولة كأس الأمم الأفريقية ==> event
	 رئيس الجمهورية ==> job
	 رئيس ==> job
	 الاتحاد الدولي لكرة القدم ==> organization
========

من فضلك أرسل هذا البريد الى صديقي جلال الدين في تمام الساعة الخامسة صباحا في يوم الثلاثاء القادم
	 جلال الدين ==> person
	 الساعة الخامسة صباحا ==> time
	 يوم الثلاثاء القادم ==> time
========

امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في غياب الدون كرستيانو رونالدو
	 مانشستر يونايتد ==> organization
	 ريال مدريد ==> organization
	 كرستيانو رونالدو ==> person
========

لا تنسى تصحيني الساعة سبعة , و ضيف في الجدول اني احضر مباراة نادي النصر غدا
	 الساعة سبعة ==> time
	 نادي النصر ==> organization
	 غدا ==> time
========

模型微調

你可以查看這個筆記本來對NER模型進行微調。

模型評估

我們在包含1959個句子的測試集上對模型進行了測試，結果如下表所示：

類型	F1分數	精確率	召回率	樣本數
人物	0.93298	0.931479	0.934487	4335
地點	0.891537	0.896926	0.886212	4939
時間	0.873003	0.876087	0.869941	1853
國籍	0.871246	0.843153	0.901277	2350
職業	0.837656	0.79912	0.880097	2477
組織	0.781317	0.773328	0.789474	2299
事件	0.686695	0.733945	0.645161	744
藝術作品	0.653552	0.678005	0.630802	474
產品	0.625483	0.553531	0.718935	338
加權平均	0.859008	0.852365	0.86703	19809
微觀平均	0.858771	0.850669	0.86703	19809
宏觀平均	0.79483	0.787286	0.806265	19809