🚀 GLiNER阿拉伯语模型 (v2.1)
GLiNER阿拉伯语模型 (v2.1) 是一款专门用于处理阿拉伯语文本的命名实体识别(NER)模型,具备高精度和强鲁棒性。它基于 urchade/gliner_large-v2
基础模型微调而来,能够精准识别阿拉伯语中的各类实体,适用于需要从阿拉伯语数据集中进行丰富实体提取的应用场景。此外,该模型还在一定程度上支持英语,可用于跨语言场景。
🚀 快速开始
gliner_arabic-v2.1
是一款专为高精度、强鲁棒性处理阿拉伯语文本而设计的专业命名实体识别(NER)模型。它基于 urchade/gliner_large-v2
基础模型构建,经过微调后,能够出色地识别阿拉伯语中的各种实体,适用于需要从阿拉伯语数据集中进行丰富实体提取的应用程序。该模型在一定程度上也支持英语,可实现跨语言用例。
✨ 主要特性
- 丰富的实体识别:能够检测专门针对阿拉伯语文本的各种实体,包括但不限于人物、组织、地点、日期等。
- 双语支持:主要针对阿拉伯语(
ar
)进行优化,同时对英语(en
)提供辅助支持。
- 高性能:针对现实世界中的阿拉伯语自然语言处理应用进行了微调,具备高鲁棒性和准确性。
- Apache - 2.0许可证:可免费用于商业和非商业用途。
📦 安装指南
要使用 gliner_arabic-v2.1
模型,你需要安装 gliner
库。可以通过pip进行安装:
pip install gliner
请确保你拥有与 urchAde/gliner_large-v2
基础模型兼容的必要依赖项。
💻 使用示例
基础用法
from gliner import GLiNER
model = GLiNER.from_pretrained("NAMAA-Space/gliner_arabic-v2.1")
text = "غزة، مدينة يصمد شعبها الفلسطيني المحاصر بقلوب كالصخر، يواجهون الإبادة الجماعية من الكيان الصهيوني برعاية أمريكية وخذلان العالم أجمع، حيث يقاوم أهلها، بقيادة يحيى السنوار ومحمد الضيف، مع فصائل حماس تحت القصف والحصار والموت منذ 7 أكتوبر 2023، وسط صمت الأمم المتحدة والاتحاد الأوروبي، بينما تجري مفاوضات في القاهرة بوساطة مصر وقطر."
labels = ["شخص", "منظمة", "تاريخ", "موقع"]
entities = model.predict_entities(text, labels, threshold=0.5)
for entity in entities:
print(f"Entity: {entity['text']} | Label: {entity['label']} | Score: {entity['score']:.3f}")
示例输出
Entity: غزة | Label: موقع | Score: 0.797
Entity: الكيان الصهيوني | Label: منظمة | Score: 0.783
Entity: يحيى السنوار | Label: شخص | Score: 0.917
Entity: فصائل حماس | Label: منظمة | Score: 0.551
Entity: حماس | Label: منظمة | Score: 0.588
Entity: 7 أكتوبر 2023 | Label: تاريخ | Score: 0.837
Entity: الأمم المتحدة | Label: منظمة | Score: 0.823
Entity: القاهرة | Label: موقع | Score: 0.773
Entity: مصر | Label: موقع | Score: 0.588
📚 详细文档
模型详情
属性 |
详情 |
模型名称 |
NAMAA-Space/gliner_arabic-v2.1 |
许可证 |
Apache - 2.0 |
支持语言 |
阿拉伯语(ar ),英语(en ) |
基础模型 |
urchade/gliner_multi-v2.1 |
管道标签 |
令牌分类 |
标签 |
GLiNER,阿拉伯语,NER |
应用场景
gliner_arabic-v2.1
模型适用于以下场景:
- 从阿拉伯语新闻文章、社交媒体和法律文件中提取实体。
- 为阿拉伯语内容构建知识图谱。
- 通过实体感知功能增强搜索和推荐系统。
- 支持包含阿拉伯语和英语混合文本的跨语言应用程序。
局限性
- 主要聚焦阿拉伯语:虽然该模型支持英语,但其性能是针对阿拉伯语文本进行优化的。英语实体识别效果可能不如原生英语模型。
- 上下文敏感性:模型性能可能会因文本复杂度和歧义实体的存在而有所不同。
- 标签依赖性:该模型需要预定义的实体标签进行预测,这可能会限制其在开放领域环境中的灵活性。
📄 许可证
本模型采用Apache - 2.0许可证,可免费用于商业和非商业用途。
联系我们
如果您有任何问题、发现问题或想要做出贡献,请通过 Hugging Face模型页面 联系我们,或在仓库中提交问题。
致谢
本模型基于 urchade/gliner_large-v2
模型和GLiNER框架的基础工作构建。感谢开源社区对阿拉伯语自然语言处理的贡献。