🚀 基於EstBERT的愛沙尼亞語命名實體識別模型
該模型是 tartuNLP/EstBERT 在愛沙尼亞語命名實體識別(NER)數據集上的微調版本。它由塔爾圖大學計算機科學研究所的自然語言處理研究小組tartuNLP訓練。該模型可用於從愛沙尼亞語文本中識別命名實體,且任何人都可免費使用。
✨ 主要特性
- 高性能:在測試集上取得了良好的性能指標,如損失為 0.3565,準確率達到 0.9672。
- 多實體類型識別:能夠識別多種實體類型,包括日期、事件、地理政治實體等。
📦 安裝指南
文檔未提及具體安裝步驟,可參考相關依賴庫的官方文檔進行安裝,如 transformers
庫。
💻 使用示例
基礎用法
你可以使用 Transformers
庫的 pipeline
進行命名實體識別。由於模型偶爾會將子詞標記為實體,因此可能需要對結果進行後處理。
from transformers import BertTokenizer, BertForTokenClassification
from transformers import pipeline
tokenizer = BertTokenizer.from_pretrained('tartuNLP/EstBERT_NER')
bertner = BertForTokenClassification.from_pretrained('tartuNLP/EstBERT_NER')
nlp = pipeline("ner", model=bertner, tokenizer=tokenizer)
text = "Kaia Kanepi (WTA 57.) langes USA-s Charlestonis toimuval WTA 500 kategooria tenniseturniiril konkurentsist kaheksandikfinaalis, kaotades poolatarile Magda Linette'ile (WTA 64.) 3 : 6, 6 : 4, 2 : 6."
ner_results = nlp(text)
tokens=tokenizer(text)
tokens=tokenizer.convert_ids_to_tokens(tokens['input_ids'])
print(f'tokens: {tokens}')
print(f'NER model:{ner_results}')
📚 詳細文檔
測試集結果
該模型在測試集上取得了以下結果:
- 損失:0.3565
- 精確率:0.7612
- 召回率:0.7744
- F1 值:0.7678
- 準確率:0.9672
實體級別的結果如下:
實體類型 |
精確率 |
召回率 |
F1 值 |
數量 |
DATE |
0.7278 |
0.7258 |
0.7268 |
372 |
EVENT |
0.3721 |
0.5714 |
0.4507 |
28 |
GPE |
0.8679 |
0.8369 |
0.8521 |
840 |
LOC |
0.6545 |
0.4832 |
0.5560 |
149 |
MONEY |
0.6625 |
0.6023 |
0.6310 |
88 |
ORG |
0.6761 |
0.7267 |
0.7005 |
589 |
PER |
0.8255 |
0.9068 |
0.8642 |
751 |
PERCENT |
1.0 |
0.9589 |
0.9790 |
73 |
PROD |
0.6030 |
0.5430 |
0.5714 |
221 |
TIME |
0.5682 |
0.5556 |
0.5618 |
45 |
TITLE |
0.7 |
0.8063 |
0.7494 |
191 |
預期用途與限制
該模型可用於從愛沙尼亞語文本中查找命名實體。任何人都可以免費使用該模型,但 tartuNLP 不保證該模型對任何人或任何用途都有用,並且不對其生成的任何結果負責。
訓練和評估數據
該模型在兩個愛沙尼亞語命名實體識別數據集上進行訓練:
兩個數據集都使用相同的註釋方案進行註釋。為了訓練該模型,將這些數據集合並。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
屬性 |
詳情 |
學習率 |
1e - 05 |
訓練批次大小 |
16 |
評估批次大小 |
16 |
隨機種子 |
1024 |
優化器 |
Adam(β1 = 0.9,β2 = 0.98,ε = 1e - 06) |
學習率調度器類型 |
多項式 |
最大訓練輪數 |
150 |
提前停止限制 |
20 |
提前停止容忍度 |
0.0001 |
混合精度訓練 |
原生自動混合精度(Native AMP) |
訓練結果
最終模型在第 53 輪訓練後保存(加粗顯示),此時在開發集上的整體 F1 值最高。具體訓練結果表格較長,可參考原文檔中的表格數據。
📄 許可證
該模型採用 CC BY 4.0 許可證。