🚀 IndicNER
IndicNER是一个经过训练的模型,用于完成从印度语言句子中识别命名实体的任务。我们的模型针对上述11种印度语言,在数百万个句子上进行了专门的微调。然后,该模型在人工标注的测试集和其他多个公开可用的印度NER数据集上进行了基准测试。
🚀 快速开始
IndicNER可用于识别印度语言句子中的命名实体。它针对11种印度语言进行了微调,能在相关的NER任务中发挥作用。你可以通过以下方式使用它:
使用 这个Colab笔记本 获取使用IndicNER的示例,或在Naampadam数据集上微调预训练模型以构建你自己的NER模型。
✨ 主要特性
- 多语言支持:支持11种印度语言,包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。
- 基于大规模语料训练:模型在从现有 Samanantar语料库 挖掘的 数据集 上进行训练。
- 经过基准测试:在人工标注的测试集和其他公开可用的印度NER数据集上进行了基准测试。
📦 安装指南
从同一个Huggingface仓库下载。
⚠️ 重要提示
2022年12月20日更新:我们发布了一篇记录IndicNER和Naamapadam的新论文。论文中报告了一个不同的模型。我们将尽快在此仓库中更新该模型。
📚 详细文档
训练语料库
我们的模型在从现有 Samanantar语料库 挖掘的 数据集 上进行训练。我们以bert-base-multilingual-uncased模型为起点,然后在前面提到的NER数据集上对其进行微调。
下载
从同一个Huggingface仓库下载。
使用方法
你可以使用 这个Colab笔记本 获取使用IndicNER的示例,或在Naampadam数据集上微调预训练模型以构建你自己的NER模型。
引用信息
如果你使用IndicNER,请引用以下文章:
@misc{mhaske2022naamapadam,
doi = {10.48550/ARXIV.2212.10168},
url = {https://arxiv.org/abs/2212.10168},
author = {Mhaske, Arnav and Kedia, Harshit and Doddapaneni, Sumanth and Khapra, Mitesh M. and Kumar, Pratyush and Murthy, Rudra and Kunchukuttan, Anoop},
title = {Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages}
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
我们希望了解以下情况:
- 如果你正在使用我们的资源,请告知我们你是如何使用这些资源的。
- 如果你对这些资源有任何反馈。
许可证
IndicNER代码(和模型)根据MIT许可证发布。
贡献者
这项工作是 AI4Bharat倡议 志愿者努力的成果。
联系方式
📄 许可证
IndicNER代码(和模型)根据MIT许可证发布。