🚀 NER4Legal_SRB
NER4Legal_SRBは、セルビア語の法的文書を処理するために設計された、微調整された固有表現認識(NER)モデルです。このモデルは、文書のアーカイブ、検索、および取得などの法的文書に関するタスクを自動化することを目的としています。
🚀 クイックスタート
NER4Legal_SRBは、セルビア語の法的文書の固有表現認識に特化したモデルです。このモデルは、classla/bcms-bertic の事前学習されたBERTモデルを利用し、セルビア語の法的文書に適合するように微調整されています。モデルはCPUとGPUの両方で実行可能です。
✨ 主な機能
- セルビア語の法的文書に対する高精度の固有表現認識
- CPUとGPUの両方での実行サポート
- 法的文書のアーカイブ、検索、および取得などのタスクの自動化
📦 インストール
このモデルは transformers
ライブラリを使用しています。以下のコマンドでライブラリをインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForTokenClassification, AutoTokenizer
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("kalusev/NER4Legal_SRB", use_auth_token=True)
model = AutoModelForTokenClassification.from_pretrained("kalusev/NER4Legal_SRB", use_auth_token=True).to(device)
id_to_label = {
0: 'O',
1: 'B-COURT',
2: 'B-DATE',
3: 'B-DECISION',
4: 'B-LAW',
5: 'B-MONEY',
6: 'B-OFFICIAL GAZZETE',
7: 'B-PERSON',
8: 'B-REFERENCE',
9: 'I-COURT',
10: 'I-LAW',
11: 'I-MONEY',
12: 'I-OFFICIAL GAZZETE',
13: 'I-PERSON',
14: 'I-REFERENCE'
}
def perform_ner(text):
"""
単一のテキストに対してGPUメモリフォールバックで固有表現認識を実行します。
引数:
text (str): 入力テキスト。
戻り値:
list: トークンと予測ラベルのリスト。
"""
try:
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(device)
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predictions = torch.argmax(logits, dim=2).squeeze().tolist()
except RuntimeError as e:
if "CUDA out of memory" in str(e):
print("メモリ制限のため、CPUに切り替えます。")
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
with torch.no_grad():
outputs = model.cpu()(**inputs)
logits = outputs.logits
predictions = torch.argmax(logits, dim=2).squeeze().tolist()
else:
raise e
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"].squeeze())
labels = [id_to_label[pred] for pred in predictions]
results = [
(token, label)
for token, label in zip(tokens, labels)
if token not in tokenizer.all_special_tokens
]
return results
text = """Rešenjem Apelacionog suda u Novom Sadu, Gž1. 1901/10 od 12.05.2010. godine žalba tuženog je usvojena, a presuda Opštinskog suda u Novom Sadu, P. 5734/04 od 29.01.2009. godine, ukinuta i predmet upućen ovom sudu na ponovno suđenje."""
results = perform_ner(text)
print("Token | Predicted Label")
print("----------------------------------------")
for token, label in results:
print(f"{token:<17} | {label}")
📚 ドキュメント
モデルの説明
NER4Legal_SRBは、セルビア語の法的文書を処理するために設計された微調整された固有表現認識(NER)モデルです。このモデルは、2025年3月9 - 12日にセルビアのコパオニクで開催される第15回情報社会と技術に関する国際会議で公開される予定の会議論文 "Named Entity Recognition for Serbian Legal Documents: Design, Methodology and Dataset Development" の一部として作成されました。モデルは、法的文書のアーカイブ、検索、および取得などのタスクを自動化することを目的としています。
概要
自然言語処理(NLP)の分野、特に大規模言語モデル(LLM)とその多くのアプリケーションの最近の進歩により、さまざまな文書処理ツールの設計と文書のアーカイブ、検索、および取得のプロセスの改善に対する研究の注目が集まっています。公式の法的文書の領域は、毎日生成される大量のデータ、および関心を持つ実務者(弁護士、法律事務所、行政職員、国家機関、および市民)の重要なコミュニティのために特に興味深いです。したがって、法的文書を含む日常の作業の自動化の効率的な方法を提供することは、さまざまな分野で大きな影響を与えることが期待されています。
ベースモデル
このモデルは、classla/bcms-bertic ベースモデルから微調整されています。これは、BCMS(ボスニア語、クロアチア語、モンテネグロ語、セルビア語)言語用に設計された事前学習されたBERTモデルです。
データセット
このモデルは、セルビア語の法的文書(公開の裁判決定を含む)の手動でラベル付けされたデータセットで微調整されました。このデータセットは、セルビア語の法的テキスト内のエンティティの正確な識別と分類を可能にするために、このタスク用に特別に開発されました。
性能指標
このモデルは、ラベル付けされたデータセットでの交差検証テスト中に平均F1スコア0.96を達成し、堅牢な性能と実世界のシナリオへの適用可能性を示しています。実施されたモデル評価と報告された結果の詳細については、元の会議論文を参照してください。
🔧 技術詳細
このモデルは、事前学習されたBERTモデルを利用し、セルビア語の法的文書に適合するように微調整されています。モデルは、セルビア語の法的文書内の特定の単語エンティティの識別と分類のタスクに特化しています。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
引用
もしこのソフトウェアを使用する場合は、以下の出版物を引用してください。
- *Kalušev, V., Brkljač, B. (2025). Named entity recognition for Serbian legal documents: Design, methodology and dataset development. In Proceedings of the 15th International Conference on Information Society and Technology (ICIST), Kopaonik, Serbia, 9-12 March, 2025, Vol. -, ISBN -, accepted for publication
@inproceedings{KalusevNER2025,
author = {Kalu{\v{s}ev, Vladimir and Brklja{\v{c}}, Branko},
booktitle = {15th International Conference on Information Society and Technology (ICIST)},
doi = {-},
month = mar,
pages = {1--16},
title = {Named entity recognition for Serbian legal documents: {D}esign, methodology and dataset development},
year = {2025}
}
@misc{kalušev2025namedentityrecognitionserbian,
title={Named entity recognition for Serbian legal documents: Design, methodology and dataset development},
author={Vladimir Kalušev and Branko Brkljač},
year={2025},
eprint={2502.10582},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.10582},
}
貢献者
