🚀 SpanMarker for GermEval 2014 NER
このモデルは、SpanMarker を GermEval 2014 NER Dataset でファインチューニングしたものです。
GermEval 2014 NER Shared Task は、ドイツ語の固有表現アノテーション付きの新しいデータセットに基づいています。このデータセットは、ドイツ語のウィキペディアとニュースコーパスから引用を収集したもので、31,000 を超える文(590,000 を超えるトークン)をカバーしています。NER アノテーションは、Tübingen Treebank ガイドラインを拡張した NoSta-D ガイドラインを使用しており、4 つの主要な NER カテゴリとサブ構造を持ち、[ORG FC Kickers [LOC Darmstadt]]
のような固有表現間の埋め込みをアノテーションします。
12 種類の固有表現がアノテーションされており、認識する必要があります。4 つの主要なクラス PER
(人物)、LOC
(場所)、ORG
(組織)、OTH
(その他)と、それらのサブクラスがあり、2 つの細粒度ラベルが導入されています。-deriv
は固有表現からの派生語(例:"englisch"(英語))をマークし、-part
は固有表現を部分列として含む複合語(例:deutschlandweit(ドイツ全国))をマークします。
✨ 主な機能
- ドイツ語の固有表現認識に特化したSpanMarkerモデル。
- GermEval 2014 NERデータセットでファインチューニングされている。
- 12種類の固有表現を認識できる。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
from span_marker import SpanMarkerModel
model = SpanMarkerModel.from_pretrained("stefan-it/span-marker-gelectra-large-germeval14")
entities = model.predict("Jürgen Schmidhuber studierte ab 1983 Informatik und Mathematik an der TU München .")
📚 ドキュメント
モデルの概要
このモデルは、SpanMarker を GermEval 2014 NER Dataset でファインチューニングしたものです。
データセットの詳細
GermEval 2014 NER Shared Task は、ドイツ語の固有表現アノテーション付きの新しいデータセットに基づいています。このデータセットは、ドイツ語のウィキペディアとニュースコーパスから引用を収集したもので、31,000 を超える文(590,000 を超えるトークン)をカバーしています。
アノテーションの詳細
12 種類の固有表現がアノテーションされており、認識する必要があります。4 つの主要なクラス PER
(人物)、LOC
(場所)、ORG
(組織)、OTH
(その他)と、それらのサブクラスがあり、2 つの細粒度ラベルが導入されています。-deriv
は固有表現からの派生語(例:"englisch"(英語))をマークし、-part
は固有表現を部分列として含む複合語(例:deutschlandweit(ドイツ全国))をマークします。
🔧 技術詳細
ファインチューニング
"German's Next Language Model" 論文で使用されたのと同じハイパーパラメータを使用し、リリースされた GELECTRA Large モデルをバックボーンとして使用しました。
評価は、SpanMarkers の内部評価コード(seqeval
を使用)で行われます。さらに、公式の GermEval 2014 評価スクリプトを使用して結果を二重チェックします。nereval.py
スクリプトのバックアップは ここ で見つけることができます。
5 つのモデルをファインチューニングし、開発セットで最良の F1 スコアを持つモデルをアップロードしました。開発セットでの結果は以下の通りです(括弧内):
モデル |
実行 1 |
実行 2 |
実行 3 |
実行 4 |
実行 5 |
平均 |
GELECTRA Large (5e-05) |
(89.99) / 89.08 |
(89.55) / 89.23 |
(89.60) / 89.10 |
(89.34) / 89.02 |
(89.68) / 88.80 |
(89.63) / 89.05 |
最良のモデルは、最終的なテストスコア 89.08% を達成しました:
1. Strict, Combined Evaluation (official):
Accuracy: 99.26%;
Precision: 89.01%;
Recall: 89.16%;
FB1: 89.08
スクリプト
トレーニング と 評価 のスクリプトも利用可能です。
📄 ライセンス
このモデルは MIT ライセンスの下で提供されています。