🚀 冰島語命名實體識別(IcelandicNER)DistilBERT模型
該模型在冰島語的MIM - GOLD - NER數據集上進行了微調。MIM - GOLD - NER語料庫由雷克雅未克大學在2018 - 2020年開發,涵蓋了八種類型的實體:
🚀 快速開始
本模型可用於冰島語的命名實體識別任務,通過微調MIM - GOLD - NER數據集獲得了良好的性能。
✨ 主要特性
- 基於DistilBERT架構,在冰島語的MIM - GOLD - NER數據集上微調。
- 能夠識別八種不同類型的實體,包括日期、地點、人物等。
📦 安裝指南
安裝依賴
pip install transformers
💻 使用示例
基礎用法
你可以使用Transformers庫的pipeline進行命名實體識別。以下是使用該模型的示例代碼:
from transformers import AutoTokenizer
from transformers import AutoModelForTokenClassification
from transformers import TFAutoModelForTokenClassification
from transformers import pipeline
model_name_or_path = "m3hrdadfi/icelandic-ner-distilbert"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Kristin manneskja getur ekki lagt frásagnir af Jesú Kristi á hilluna vegna þess að hún sé búin að lesa þær ."
ner_results = nlp(example)
print(ner_results)
📚 詳細文檔
數據集信息
數據集 |
記錄數 |
B - 日期 |
B - 地點 |
B - 其他 |
B - 貨幣 |
B - 組織 |
B - 百分比 |
B - 人物 |
B - 時間 |
I - 日期 |
I - 地點 |
I - 其他 |
I - 貨幣 |
I - 組織 |
I - 百分比 |
I - 人物 |
I - 時間 |
訓練集 |
39988 |
3409 |
5980 |
4351 |
729 |
5754 |
502 |
11719 |
868 |
2112 |
516 |
3036 |
770 |
2382 |
50 |
5478 |
790 |
驗證集 |
7063 |
570 |
1034 |
787 |
100 |
1078 |
103 |
2106 |
147 |
409 |
76 |
560 |
104 |
458 |
7 |
998 |
136 |
測試集 |
8299 |
779 |
1319 |
935 |
153 |
1315 |
108 |
2247 |
172 |
483 |
104 |
660 |
167 |
617 |
10 |
1089 |
158 |
評估結果
以下表格總結了模型整體以及每個類別的得分:
實體 |
精確率 |
召回率 |
F1 - 分數 |
樣本數 |
日期 |
0.969309 |
0.973042 |
0.971172 |
779.0 |
地點 |
0.941221 |
0.946929 |
0.944067 |
1319.0 |
其他 |
0.848283 |
0.819251 |
0.833515 |
935.0 |
貨幣 |
0.928571 |
0.934641 |
0.931596 |
153.0 |
組織 |
0.874147 |
0.876806 |
0.875475 |
1315.0 |
百分比 |
1.000000 |
1.000000 |
1.000000 |
108.0 |
人物 |
0.956674 |
0.972853 |
0.964695 |
2247.0 |
時間 |
0.965318 |
0.970930 |
0.968116 |
172.0 |
微平均 |
0.926110 |
0.929141 |
0.927623 |
7028.0 |
宏平均 |
0.935441 |
0.936807 |
0.936079 |
7028.0 |
加權平均 |
0.925578 |
0.929141 |
0.927301 |
7028.0 |
📄 許可證
本項目採用Apache - 2.0許可證。
💡 問題反饋
如果你有任何問題,請在IcelandicNER Issues倉庫中提交GitHub問題。