🚀 IndicNER
IndicNER是一個經過訓練的模型,用於完成從印度語言句子中識別命名實體的任務。我們的模型針對上述11種印度語言,在數百萬個句子上進行了專門的微調。然後,該模型在人工標註的測試集和其他多個公開可用的印度NER數據集上進行了基準測試。
🚀 快速開始
IndicNER可用於識別印度語言句子中的命名實體。它針對11種印度語言進行了微調,能在相關的NER任務中發揮作用。你可以通過以下方式使用它:
使用 這個Colab筆記本 獲取使用IndicNER的示例,或在Naampadam數據集上微調預訓練模型以構建你自己的NER模型。
✨ 主要特性
- 多語言支持:支持11種印度語言,包括阿薩姆語、孟加拉語、古吉拉特語、印地語、卡納達語、馬拉雅拉姆語、馬拉地語、奧里亞語、旁遮普語、泰米爾語和泰盧固語。
- 基於大規模語料訓練:模型在從現有 Samanantar語料庫 挖掘的 數據集 上進行訓練。
- 經過基準測試:在人工標註的測試集和其他公開可用的印度NER數據集上進行了基準測試。
📦 安裝指南
從同一個Huggingface倉庫下載。
⚠️ 重要提示
2022年12月20日更新:我們發佈了一篇記錄IndicNER和Naamapadam的新論文。論文中報告了一個不同的模型。我們將盡快在此倉庫中更新該模型。
📚 詳細文檔
訓練語料庫
我們的模型在從現有 Samanantar語料庫 挖掘的 數據集 上進行訓練。我們以bert-base-multilingual-uncased模型為起點,然後在前面提到的NER數據集上對其進行微調。
下載
從同一個Huggingface倉庫下載。
使用方法
你可以使用 這個Colab筆記本 獲取使用IndicNER的示例,或在Naampadam數據集上微調預訓練模型以構建你自己的NER模型。
引用信息
如果你使用IndicNER,請引用以下文章:
@misc{mhaske2022naamapadam,
doi = {10.48550/ARXIV.2212.10168},
url = {https://arxiv.org/abs/2212.10168},
author = {Mhaske, Arnav and Kedia, Harshit and Doddapaneni, Sumanth and Khapra, Mitesh M. and Kumar, Pratyush and Murthy, Rudra and Kunchukuttan, Anoop},
title = {Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages}
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
我們希望瞭解以下情況:
- 如果你正在使用我們的資源,請告知我們你是如何使用這些資源的。
- 如果你對這些資源有任何反饋。
許可證
IndicNER代碼(和模型)根據MIT許可證發佈。
貢獻者
這項工作是 AI4Bharat倡議 志願者努力的成果。
聯繫方式
📄 許可證
IndicNER代碼(和模型)根據MIT許可證發佈。