🚀 GLiNER-ko 模型卡片
GLiNER 是一個命名實體識別(NER)模型,它能夠使用雙向變壓器編碼器(類似 BERT)識別任何實體類型。它為傳統的 NER 模型和大語言模型(LLMs)提供了一個實用的替代方案。傳統 NER 模型僅限於預定義的實體,而大語言模型雖然靈活,但在資源受限的場景中成本高且體積大。
此版本是在各種韓國 NER 數據集上訓練的(用於研究目的)。也有商業許可版本(urchade/gliner_smallv2、urchade/gliner_mediumv2、urchade/gliner_largev2)
🔗 鏈接
- 論文:https://arxiv.org/abs/2311.08526
- 倉庫:https://github.com/urchade/GLiNER
📦 安裝指南
要使用此模型,你必須安裝 GLiNER Python 庫的韓國分支和 mecab-ko:
!pip install gliner
!pip install python-mecab-ko
💻 使用示例
基礎用法
from gliner import GLiNER
model = GLiNER.from_pretrained("taeminlee/gliner_ko")
text = """
피터 잭슨 경(, 1961년 10월 31일 ~ )은 뉴질랜드의 영화 감독, 각본가, 영화 프로듀서이다. J. R. R. 톨킨의 소설을 원작으로 한 《반지의 제왕 영화 3부작》(2001년~2003년)의 감독으로 가장 유명하다. 2005년에는 1933년작 킹콩의 리메이크작 《킹콩(2005)》의 감독을 맡았다.
"""
tta_labels = ["ARTIFACTS", "ANIMAL", "CIVILIZATION", "DATE", "EVENT", "STUDY_FIELD", "LOCATION", "MATERIAL", "ORGANIZATION", "PERSON", "PLANT", "QUANTITY", "TIME", "TERM", "THEORY"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
피터 잭슨 경 => PERSON
1961년 10월 31일 ~ => DATE
뉴질랜드 => LOCATION
영화 감독 => CIVILIZATION
각본가 => CIVILIZATION
영화 => CIVILIZATION
프로듀서 => CIVILIZATION
J. R. R. 톨킨 => PERSON
3부작 => QUANTITY
2001년~2003년 => DATE
감독 => CIVILIZATION
2005년 => DATE
1933년작 => DATE
킹콩 => ARTIFACTS
킹콩 => ARTIFACTS
2005 => DATE
감독 => CIVILIZATION
📊 命名實體識別基準測試結果
使用 konne dev set 進行評估
模型 |
精確率 (P) |
召回率 (R) |
F1 值 |
Gliner-ko (t=0.5) |
72.51% |
79.82% |
75.99% |
Gliner Large-v2 (t=0.5) |
34.33% |
19.50% |
24.87% |
Gliner Multi (t=0.5) |
40.94% |
34.18% |
37.26% |
Pororo |
70.25% |
57.94% |
63.50% |
👨💻 模型作者
📄 許可證
本模型採用 CC BY-NC 4.0 許可證。
📖 引用
@misc{zaratiana2023gliner,
title={GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer},
author={Urchade Zaratiana and Nadi Tomeh and Pierre Holat and Thierry Charnois},
year={2023},
eprint={2311.08526},
archivePrefix={arXiv},
primaryClass={cs.CL}
}