🚀 AlbertNER
AlbertNER是一個針對命名實體識別(NER)任務進行微調的模型。它在一個混合NER數據集上進行訓練,該數據集收集自ARMAN、PEYMA和WikiANN,涵蓋了十種類型的實體:
- 日期(DAT)
- 事件(EVE)
- 設施(FAC)
- 地點(LOC)
- 貨幣(MON)
- 組織(ORG)
- 百分比(PCT)
- 人物(PER)
- 產品(PRO)
- 時間(TIM)
✨ 主要特性
- 基於混合數據集訓練,涵蓋多種類型的實體。
- 可用於波斯語的命名實體識別任務。
📦 安裝指南
安裝依賴項
pip install sentencepiece
pip install transformers
💻 使用示例
基礎用法
from transformers import AutoTokenizer
from transformers import AutoModelForTokenClassification
from transformers import TFAutoModelForTokenClassification
from transformers import pipeline
model_name_or_path = "HooshvareLab/albert-fa-zwnj-base-v2-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "در سال ۲۰۱۳ درگذشت و آندرتیکر و کین برای او مراسم یادبود گرفتند."
ner_results = nlp(example)
print(ner_results)
📚 詳細文檔
數據集信息
數據集 |
記錄數 |
B-DAT |
B-EVE |
B-FAC |
B-LOC |
B-MON |
B-ORG |
B-PCT |
B-PER |
B-PRO |
B-TIM |
I-DAT |
I-EVE |
I-FAC |
I-LOC |
I-MON |
I-ORG |
I-PCT |
I-PER |
I-PRO |
I-TIM |
訓練集 |
29133 |
1423 |
1487 |
1400 |
13919 |
417 |
15926 |
355 |
12347 |
1855 |
150 |
1947 |
5018 |
2421 |
4118 |
1059 |
19579 |
573 |
7699 |
1914 |
332 |
驗證集 |
5142 |
267 |
253 |
250 |
2362 |
100 |
2651 |
64 |
2173 |
317 |
19 |
373 |
799 |
387 |
717 |
270 |
3260 |
101 |
1382 |
303 |
35 |
測試集 |
6049 |
407 |
256 |
248 |
2886 |
98 |
3216 |
94 |
2646 |
318 |
43 |
568 |
888 |
408 |
858 |
263 |
3967 |
141 |
1707 |
296 |
78 |
評估結果
整體評估
模型 |
準確率 |
精確率 |
召回率 |
F1值 |
Albert |
0.993405 |
0.938907 |
0.943966 |
0.941429 |
各實體評估
實體 |
數量 |
精確率 |
召回率 |
F1值 |
DAT |
407 |
0.820639 |
0.820639 |
0.820639 |
EVE |
256 |
0.936803 |
0.984375 |
0.960000 |
FAC |
248 |
0.925373 |
1.000000 |
0.961240 |
LOC |
2884 |
0.960818 |
0.960818 |
0.960818 |
MON |
98 |
0.913978 |
0.867347 |
0.890052 |
ORG |
3216 |
0.920892 |
0.937500 |
0.929122 |
PCT |
94 |
0.946809 |
0.946809 |
0.946809 |
PER |
2644 |
0.960000 |
0.944024 |
0.951945 |
PRO |
318 |
0.942943 |
0.987421 |
0.964670 |
TIM |
43 |
0.780488 |
0.744186 |
0.761905 |
❓ 常見問題
如果您有任何問題,可以在ParsNER Issues倉庫中提交GitHub問題。