## 🚀 GLiNER-ko モデルカード
GLiNERは、双方向トランスフォーマーエンコーダ(BERTライク)を使用して任意のエンティティタイプを識別できる固有表現認識(NER)モデルです。これは、事前定義されたエンティティに限定される従来のNERモデルや、柔軟性はあるものの、リソースが制限されたシナリオではコストが高く大規模な大規模言語モデル(LLM)の実用的な代替手段を提供します。
このバージョンは、**様々な韓国語NER**データセット(研究目的)で学習されています。商用利用可能なバージョンもあります(**urchade/gliner_smallv2**、**urchade/gliner_mediumv2**、**urchade/gliner_largev2**)
## 📚 リンク
* 論文: https://arxiv.org/abs/2311.08526
* リポジトリ: https://github.com/urchade/GLiNER
## 📦 インストール
このモデルを使用するには、GLiNER Pythonライブラリの韓国語フォークとmecab-koをインストールする必要があります。
!pip install gliner
!pip install python-mecab-ko
## 💻 使用例
### 基本的な使用法
```python
from gliner import GLiNER
model = GLiNER.from_pretrained("taeminlee/gliner_ko")
text = """
피터 잭슨 경(, 1961년 10월 31일 ~ )은 뉴질랜드의 영화 감독, 각본가, 영화 프로듀서이다. J. R. R. 톨킨의 소설을 원작으로 한 《반지의 제왕 영화 3부작》(2001년~2003년)의 감독으로 가장 유명하다. 2005년에는 1933년작 킹콩의 리메이크작 《킹콩(2005)》의 감독을 맡았다.
"""
tta_labels = ["ARTIFACTS", "ANIMAL", "CIVILIZATION", "DATE", "EVENT", "STUDY_FIELD", "LOCATION", "MATERIAL", "ORGANIZATION", "PERSON", "PLANT", "QUANTITY", "TIME", "TERM", "THEORY"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
出力例
피터 잭슨 경 => PERSON
1961년 10월 31일 ~ => DATE
뉴질랜드 => LOCATION
영화 감독 => CIVILIZATION
각본가 => CIVILIZATION
영화 => CIVILIZATION
프로듀서 => CIVILIZATION
J. R. R. 톨킨 => PERSON
3부작 => QUANTITY
2001년~2003년 => DATE
감독 => CIVILIZATION
2005년 => DATE
1933년작 => DATE
킹콩 => ARTIFACTS
킹콩 => ARTIFACTS
2005 => DATE
감독 => CIVILIZATION
📊 固有表現認識のベンチマーク結果
konne dev setを使用して評価しました。
属性 |
詳細 |
モデルタイプ |
固有表現認識(NER)モデル |
学習データ |
様々な韓国語NERデータセット(研究目的) |
モデル |
適合率 (P) |
再現率 (R) |
F1値 |
Gliner-ko (t=0.5) |
72.51% |
79.82% |
75.99% |
Gliner Large-v2 (t=0.5) |
34.33% |
19.50% |
24.87% |
Gliner Multi (t=0.5) |
40.94% |
34.18% |
37.26% |
Pororo |
70.25% |
57.94% |
63.50% |
👨💻 モデルの作成者
このモデルの作成者は以下の通りです。
📄 引用
@misc{zaratiana2023gliner,
title={GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer},
author={Urchade Zaratiana and Nadi Tomeh and Pierre Holat and Thierry Charnois},
year={2023},
eprint={2311.08526},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルはCC BY-NC 4.0ライセンスの下で提供されています。
以上のREADMEは、元の文書を日本語に翻訳し、指定された美化規則に基づいて構造と視覚的な要素を最適化しています。コードブロックやリンク、BibTeX引用などの重要な情報はそのまま保持されています。