🚀 BERT-base_NER-ar 阿拉伯语命名实体识别模型
BERT-base_NER-ar 是一个经过微调的多语言 BERT 基础模型,专门用于阿拉伯语的命名实体识别(NER)任务。该基础模型在多种语言上进行了预训练,并使用 “wikiann” 数据集针对 NER 任务进行了特定微调。此模型区分大小写,能够分辨不同的字母大小写形式,例如 “english” 和 “English”。
🚀 快速开始
以下是使用该模型进行命名实体识别的示例代码:
from transformers import AutoModelForTokenClassification, AutoTokenizer
import torch
model = AutoModelForTokenClassification.from_pretrained("ayoubkirouane/BERT-base_NER-ar")
tokenizer = AutoTokenizer.from_pretrained("ayoubkirouane/BERT-base_NER-ar")
text = "عاصمة فلسطين هي القدس الشريف."
tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(text)))
input_ids = tokenizer.convert_tokens_to_ids(tokens)
with torch.no_grad():
outputs = model(torch.tensor([input_ids]))
predicted_labels = outputs[0].argmax(dim=2).cpu().numpy()[0]
predicted_labels = [model.config.id2label[label_id] for label_id in predicted_labels]
for token, label in zip(tokens, predicted_labels):
print(f"Token: {token}, Label: {label}")
✨ 主要特性
- 多语言基础:基于多语言 BERT 模型预训练,具备处理多种语言的潜力。
- 大小写敏感:能够区分不同大小写的字母,提高识别准确性。
- 多语言支持:不仅适用于阿拉伯语的命名实体识别,还可用于探索多语言模型的零样本跨语言能力,支持 “wikiann” 数据集中的多种语言。
📦 安装指南
暂未提供相关安装步骤。
💻 使用示例
基础用法
from transformers import AutoModelForTokenClassification, AutoTokenizer
import torch
model = AutoModelForTokenClassification.from_pretrained("ayoubkirouane/BERT-base_NER-ar")
tokenizer = AutoTokenizer.from_pretrained("ayoubkirouane/BERT-base_NER-ar")
text = "عاصمة فلسطين هي القدس الشريف."
tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(text)))
input_ids = tokenizer.convert_tokens_to_ids(tokens)
with torch.no_grad():
outputs = model(torch.tensor([input_ids]))
predicted_labels = outputs[0].argmax(dim=2).cpu().numpy()[0]
predicted_labels = [model.config.id2label[label_id] for label_id in predicted_labels]
for token, label in zip(tokens, predicted_labels):
print(f"Token: {token}, Label: {label}")
📚 详细文档
数据集
该模型在 “wikiann” 数据集上进行了微调,这是一个多语言命名实体识别数据集。它包含带有三种命名实体类型注释的维基百科文章:LOC(地点)、PER(人物)和 ORG(组织)。注释采用 IOB2 格式。该数据集支持原始 WikiANN 语料库中 282 种语言中的 176 种。
支持的任务和排行榜
此模型主要支持的任务是阿拉伯语的命名实体识别(NER)。不过,它也可用于探索多语言模型的零样本跨语言能力,实现多种语言的 NER。
使用场景
- 阿拉伯语命名实体识别:BERT-base_NER-ar 可用于从阿拉伯语文本中提取命名实体(如人名、地点和组织名称),这对于阿拉伯语应用中的信息检索、文本摘要和内容分析非常有价值。
- 多语言 NER:该模型的多语言能力使其能够在 “wikiann” 数据集支持的其他语言中执行 NER 任务,适用于跨语言 NER 任务。
局限性
- 语言限制:虽然该模型支持多种语言,但在所有语言中的表现可能不尽相同。其性能可能会因特定语言可用的训练数据的质量和数量而异。
- 微调数据:模型的性能取决于微调数据(此处为 “wikiann” 数据集)的质量和代表性。如果数据集有限或存在偏差,可能会影响模型的性能。
🔧 技术细节
该模型是基于多语言 BERT 基础模型进行微调得到的,针对阿拉伯语的命名实体识别任务进行了优化。通过在 “wikiann” 数据集上进行训练,模型学习到了识别不同类型命名实体的能力。在处理文本时,模型会对输入的文本进行分词,将其转换为输入 ID,然后进行推理,最终输出每个词的预测标签。
📄 许可证
暂未提供相关许可证信息。