🚀 BERTurk-Legal:基于Transformer的土耳其法律案例检索模型
BERTurk-Legal是一款基于Transformer架构的语言模型,旨在检索先前的法律案例。它在土耳其法律领域的数据集上进行了预训练,该数据集不包含与先前法院案例检索任务相关的任何标签。BERTurk-Legal采用掩码语言模型(Masked Language Modeling)以自监督的方式进行训练。通过零样本分类,BERTurk-Legal在由土耳其最高法院法律案例组成的数据集上取得了最先进的成果。实验结果表明,开发特定于土耳其法律领域的语言模型是十分必要的。BERTurk-Legal的详细信息可在下面引用部分提到的论文中找到。
🚀 快速开始
测试数据集获取
测试数据集可通过以下链接访问:https://github.com/koc-lab/yargitay_retrieval_dataset
模型加载与使用
可以按照以下方式加载模型并创建文档嵌入,然后利用这些文档嵌入进行检索。
from transformers import AutoModelForSequenceClassification, AutoTokenizer
bert_model = "KocLab-Bilkent/BERTurk-Legal"
model = AutoModelForSequenceClassification.from_pretrained(bert_model, output_hidden_states=True)
tokenizer = AutoTokenizer.from_pretrained(bert_model)
tokens = tokenizer("Örnek metin")
output = model(tokens)
docEmbeddings = output.hidden_states[-1]
✨ 主要特性
- 领域特定预训练:在土耳其法律领域的数据集上进行预训练,更适合法律案例检索任务。
- 自监督学习:采用掩码语言模型进行自监督训练,无需大量标注数据。
- 零样本分类:在零样本分类任务中,能在土耳其最高法院法律案例数据集上取得先进成果。
📦 安装指南
文档中未提及具体安装步骤,若有需要可参考transformers
库的官方安装说明。
💻 使用示例
基础用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
bert_model = "KocLab-Bilkent/BERTurk-Legal"
model = AutoModelForSequenceClassification.from_pretrained(bert_model, output_hidden_states=True)
tokenizer = AutoTokenizer.from_pretrained(bert_model)
tokens = tokenizer("Örnek metin")
output = model(tokens)
docEmbeddings = output.hidden_states[-1]
高级用法
文档中未提及高级用法相关代码,若有更复杂的应用场景,可基于基础用法进行扩展。
📚 详细文档
BERTurk-Legal的详细信息可在下面引用部分提到的论文中找到。
📄 许可证
本项目采用MIT许可证。
📄 引用
如果您使用了该模型,请引用以下会议论文:
@inproceedings{ozturk23berturkLegal,
author={\"{O}zt\"{u}rk, Ceyhun E. and \"{O}z\c{c}elik, {\c{S}}. Bar{\i}\c{s} and Aykut Ko\c{c}},
booktitle={2023 31st Signal Processing and Communications Applications Conference (SIU)},
title={{A Transformer-Based Prior Legal Case Retrieval Method}},
year={2023},
volume={},
number={},
pages={1-4}
}
@mastersthesis{ozturk23legalNlp,
author = "\"{O}zt\"{u}rk, Ceyhun E.",
title = "Retrieving Turkish Prior Legal Cases with Deep Learning",
school = "Bilkent University",
year = "2023"
}
📋 模型信息
属性 |
详情 |
模型类型 |
基于Transformer的语言模型 |
评估指标 |
F1、精确率、召回率 |
标签 |
法律 |