NER4Legal_SRBオープンソースの固有表現抽出モデル - セルビア語の法的文書からキー情報を自動抽出

ホーム

Ner4legal SRB

kalusevによって開発

セルビア語の法律文書に最適化された固有表現認識モデル。BERTアーキテクチャを基にファインチューニングされ、法律テキストから重要なエンティティ情報を自動抽出します。

シーケンスラベリング

Transformers

その他オープンソースライセンス:Apache-2.0 #セルビア法律NER #高精度エンティティ認識 #裁判文書処理

ダウンロード数 54

リリース時間 : 2/14/2025

モデル概要

このモデルはセルビアの法律文書で定義済みのエンティティカテゴリを識別するために特別に設計されており、文書のアーカイブや検索などの自動化タスクをサポートします。弁護士、法律事務所、政府機関などのユーザーグループに適しています。

モデル特徴

法律分野に最適化

セルビアの法律文書向けに特別に訓練されており、法律テキスト内の特定のエンティティカテゴリを正確に識別できます。

高精度性能

クロスバリデーションによる平均F1値は0.96と優れた性能を発揮します。

ロバスト性検証

敵対的テキストテストにより、ノイズのある入力下でのモデルの安定性が検証されています。

モデル能力

法律テキストのエンティティ認識

セルビア語処理

裁判所判決分析

使用事例

法律文書処理

裁判所判決のアーカイブ

判決文書から裁判所名、事件番号などの重要な情報を自動識別

文書分類と検索効率の向上

法律情報抽出

法律文書から当事者、判決結果などの構造化データを抽出

法律分析と研究をサポート

🚀 NER4Legal_SRB

NER4Legal_SRBは、セルビア語の法的文書を処理するために設計された、微調整された固有表現認識（NER）モデルです。このモデルは、文書のアーカイブ、検索、および取得などの法的文書に関するタスクを自動化することを目的としています。

🚀 クイックスタート

NER4Legal_SRBは、セルビア語の法的文書の固有表現認識に特化したモデルです。このモデルは、classla/bcms-bertic の事前学習されたBERTモデルを利用し、セルビア語の法的文書に適合するように微調整されています。モデルはCPUとGPUの両方で実行可能です。

✨ 主な機能

セルビア語の法的文書に対する高精度の固有表現認識
CPUとGPUの両方での実行サポート
法的文書のアーカイブ、検索、および取得などのタスクの自動化

📦 インストール

このモデルは transformers ライブラリを使用しています。以下のコマンドでライブラリをインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoModelForTokenClassification, AutoTokenizer
import torch

# モデルとトークナイザーをロード
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("kalusev/NER4Legal_SRB", use_auth_token=True)
model = AutoModelForTokenClassification.from_pretrained("kalusev/NER4Legal_SRB", use_auth_token=True).to(device)

# ラベルマッピング (id_to_label) を定義
id_to_label = {
    0: 'O',
    1: 'B-COURT',
    2: 'B-DATE',
    3: 'B-DECISION',
    4: 'B-LAW',
    5: 'B-MONEY',
    6: 'B-OFFICIAL GAZZETE',
    7: 'B-PERSON',
    8: 'B-REFERENCE',
    9: 'I-COURT',
    10: 'I-LAW',
    11: 'I-MONEY',
    12: 'I-OFFICIAL GAZZETE',
    13: 'I-PERSON',
    14: 'I-REFERENCE'
}

# GPU/CPUフォールバックでのNER
def perform_ner(text):
    """
    単一のテキストに対してGPUメモリフォールバックで固有表現認識を実行します。
    引数:
        text (str): 入力テキスト。
    戻り値:
        list: トークンと予測ラベルのリスト。
    """
    try:
        # 入力テキストをトークナイズ
        inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(device)
        # モデルから予測を取得
        with torch.no_grad():
            outputs = model(**inputs)
        logits = outputs.logits
        predictions = torch.argmax(logits, dim=2).squeeze().tolist()

    except RuntimeError as e:
        if "CUDA out of memory" in str(e):
            print("メモリ制限のため、CPUに切り替えます。")
            inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
            with torch.no_grad():
                outputs = model.cpu()(**inputs)  # CPUでモデルを実行
            logits = outputs.logits
            predictions = torch.argmax(logits, dim=2).squeeze().tolist()
        else:
            raise e  # その他の例外を再発生させる

    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"].squeeze())
    labels = [id_to_label[pred] for pred in predictions]

    # 特殊トークンをフィルタリング
    results = [
        (token, label)
        for token, label in zip(tokens, labels)
        if token not in tokenizer.all_special_tokens
    ]
    return results

# 使用例
text = """Rešenjem Apelacionog suda u Novom Sadu, Gž1. 1901/10 od 12.05.2010. godine žalba tuženog je usvojena, a presuda Opštinskog suda u Novom Sadu, P. 5734/04 od 29.01.2009. godine, ukinuta i predmet upućen ovom sudu na ponovno suđenje."""

# NERを実行
results = perform_ner(text)

# トークンとラベルを整形した表として出力
print("Token             | Predicted Label")
print("----------------------------------------")
for token, label in results:
    print(f"{token:<17} | {label}")

📚 ドキュメント

モデルの説明

NER4Legal_SRBは、セルビア語の法的文書を処理するために設計された微調整された固有表現認識（NER）モデルです。このモデルは、2025年3月9 - 12日にセルビアのコパオニクで開催される第15回情報社会と技術に関する国際会議で公開される予定の会議論文 "Named Entity Recognition for Serbian Legal Documents: Design, Methodology and Dataset Development" の一部として作成されました。モデルは、法的文書のアーカイブ、検索、および取得などのタスクを自動化することを目的としています。

概要

自然言語処理（NLP）の分野、特に大規模言語モデル（LLM）とその多くのアプリケーションの最近の進歩により、さまざまな文書処理ツールの設計と文書のアーカイブ、検索、および取得のプロセスの改善に対する研究の注目が集まっています。公式の法的文書の領域は、毎日生成される大量のデータ、および関心を持つ実務者（弁護士、法律事務所、行政職員、国家機関、および市民）の重要なコミュニティのために特に興味深いです。したがって、法的文書を含む日常の作業の自動化の効率的な方法を提供することは、さまざまな分野で大きな影響を与えることが期待されています。

ベースモデル

このモデルは、classla/bcms-bertic ベースモデルから微調整されています。これは、BCMS（ボスニア語、クロアチア語、モンテネグロ語、セルビア語）言語用に設計された事前学習されたBERTモデルです。

データセット

このモデルは、セルビア語の法的文書（公開の裁判決定を含む）の手動でラベル付けされたデータセットで微調整されました。このデータセットは、セルビア語の法的テキスト内のエンティティの正確な識別と分類を可能にするために、このタスク用に特別に開発されました。

性能指標

このモデルは、ラベル付けされたデータセットでの交差検証テスト中に平均F1スコア0.96を達成し、堅牢な性能と実世界のシナリオへの適用可能性を示しています。実施されたモデル評価と報告された結果の詳細については、元の会議論文を参照してください。

🔧 技術詳細

このモデルは、事前学習されたBERTモデルを利用し、セルビア語の法的文書に適合するように微調整されています。モデルは、セルビア語の法的文書内の特定の単語エンティティの識別と分類のタスクに特化しています。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

引用

もしこのソフトウェアを使用する場合は、以下の出版物を引用してください。

*Kalušev, V., Brkljač, B. (2025). Named entity recognition for Serbian legal documents: Design, methodology and dataset development. In Proceedings of the 15th International Conference on Information Society and Technology (ICIST), Kopaonik, Serbia, 9-12 March, 2025, Vol. -, ISBN -, accepted for publication

@inproceedings{KalusevNER2025,
    author = {Kalu{\v{s}ev, Vladimir and Brklja{\v{c}}, Branko},
    booktitle = {15th International Conference on Information Society and Technology (ICIST)},
    doi = {-},
    month = mar,
    pages = {1--16},
    title = {Named entity recognition for Serbian legal documents: {D}esign, methodology and dataset development},
    year = {2025}
}

@misc{kalušev2025namedentityrecognitionserbian,
      title={Named entity recognition for Serbian legal documents: Design, methodology and dataset development},
      author={Vladimir Kalušev and Branko Brkljač},
      year={2025},
      eprint={2502.10582},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2502.10582},
}