🚀 BERT-base_NER-ar 阿拉伯語命名實體識別模型
BERT-base_NER-ar 是一個經過微調的多語言 BERT 基礎模型,專門用於阿拉伯語的命名實體識別(NER)任務。該基礎模型在多種語言上進行了預訓練,並使用 “wikiann” 數據集針對 NER 任務進行了特定微調。此模型區分大小寫,能夠分辨不同的字母大小寫形式,例如 “english” 和 “English”。
🚀 快速開始
以下是使用該模型進行命名實體識別的示例代碼:
from transformers import AutoModelForTokenClassification, AutoTokenizer
import torch
model = AutoModelForTokenClassification.from_pretrained("ayoubkirouane/BERT-base_NER-ar")
tokenizer = AutoTokenizer.from_pretrained("ayoubkirouane/BERT-base_NER-ar")
text = "عاصمة فلسطين هي القدس الشريف."
tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(text)))
input_ids = tokenizer.convert_tokens_to_ids(tokens)
with torch.no_grad():
outputs = model(torch.tensor([input_ids]))
predicted_labels = outputs[0].argmax(dim=2).cpu().numpy()[0]
predicted_labels = [model.config.id2label[label_id] for label_id in predicted_labels]
for token, label in zip(tokens, predicted_labels):
print(f"Token: {token}, Label: {label}")
✨ 主要特性
- 多語言基礎:基於多語言 BERT 模型預訓練,具備處理多種語言的潛力。
- 大小寫敏感:能夠區分不同大小寫的字母,提高識別準確性。
- 多語言支持:不僅適用於阿拉伯語的命名實體識別,還可用於探索多語言模型的零樣本跨語言能力,支持 “wikiann” 數據集中的多種語言。
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
基礎用法
from transformers import AutoModelForTokenClassification, AutoTokenizer
import torch
model = AutoModelForTokenClassification.from_pretrained("ayoubkirouane/BERT-base_NER-ar")
tokenizer = AutoTokenizer.from_pretrained("ayoubkirouane/BERT-base_NER-ar")
text = "عاصمة فلسطين هي القدس الشريف."
tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(text)))
input_ids = tokenizer.convert_tokens_to_ids(tokens)
with torch.no_grad():
outputs = model(torch.tensor([input_ids]))
predicted_labels = outputs[0].argmax(dim=2).cpu().numpy()[0]
predicted_labels = [model.config.id2label[label_id] for label_id in predicted_labels]
for token, label in zip(tokens, predicted_labels):
print(f"Token: {token}, Label: {label}")
📚 詳細文檔
數據集
該模型在 “wikiann” 數據集上進行了微調,這是一個多語言命名實體識別數據集。它包含帶有三種命名實體類型註釋的維基百科文章:LOC(地點)、PER(人物)和 ORG(組織)。註釋採用 IOB2 格式。該數據集支持原始 WikiANN 語料庫中 282 種語言中的 176 種。
支持的任務和排行榜
此模型主要支持的任務是阿拉伯語的命名實體識別(NER)。不過,它也可用於探索多語言模型的零樣本跨語言能力,實現多種語言的 NER。
使用場景
- 阿拉伯語命名實體識別:BERT-base_NER-ar 可用於從阿拉伯語文本中提取命名實體(如人名、地點和組織名稱),這對於阿拉伯語應用中的信息檢索、文本摘要和內容分析非常有價值。
- 多語言 NER:該模型的多語言能力使其能夠在 “wikiann” 數據集支持的其他語言中執行 NER 任務,適用於跨語言 NER 任務。
侷限性
- 語言限制:雖然該模型支持多種語言,但在所有語言中的表現可能不盡相同。其性能可能會因特定語言可用的訓練數據的質量和數量而異。
- 微調數據:模型的性能取決於微調數據(此處為 “wikiann” 數據集)的質量和代表性。如果數據集有限或存在偏差,可能會影響模型的性能。
🔧 技術細節
該模型是基於多語言 BERT 基礎模型進行微調得到的,針對阿拉伯語的命名實體識別任務進行了優化。通過在 “wikiann” 數據集上進行訓練,模型學習到了識別不同類型命名實體的能力。在處理文本時,模型會對輸入的文本進行分詞,將其轉換為輸入 ID,然後進行推理,最終輸出每個詞的預測標籤。
📄 許可證
暫未提供相關許可證信息。