BERTurk-Legal开源语言模型 - 免费助力土耳其法律领域先前案例检索

首页

Berturk Legal

由 KocLab-Bilkent 开发

BERTurk-Legal是一个基于Transformer架构的语言模型，专门用于土耳其法律领域的先前案例检索任务。

大型语言模型

Transformers

其他开源协议:MIT #土耳其法律案例检索 #零样本分类 #自监督预训练

下载量 382

发布时间 : 4/16/2024

模型简介

该模型在土耳其法律领域的语料库上进行了预训练，通过掩码语言建模（MLM）以自监督的方式训练，适用于法律案例检索任务。

模型特点

土耳其法律领域专用

专门针对土耳其法律领域的语料库进行预训练，优化了法律案例检索任务。

自监督训练

通过掩码语言建模（MLM）以自监督的方式训练，无需标注数据。

零样本分类能力

在零样本分类任务中取得了最先进的结果，展示了强大的泛化能力。

模型能力

法律案例检索

文本嵌入生成

零样本分类

使用案例

法律

土耳其最高法院案例检索

用于检索土耳其最高法院的法律案例，帮助法律专业人士快速找到相关先例。

在土耳其最高法院法律案例数据集上取得了最先进的结果。

🚀 BERTurk-Legal：基于Transformer的土耳其法律案例检索模型

BERTurk-Legal是一款基于Transformer架构的语言模型，旨在检索先前的法律案例。它在土耳其法律领域的数据集上进行了预训练，该数据集不包含与先前法院案例检索任务相关的任何标签。BERTurk-Legal采用掩码语言模型（Masked Language Modeling）以自监督的方式进行训练。通过零样本分类，BERTurk-Legal在由土耳其最高法院法律案例组成的数据集上取得了最先进的成果。实验结果表明，开发特定于土耳其法律领域的语言模型是十分必要的。BERTurk-Legal的详细信息可在下面引用部分提到的论文中找到。

🚀 快速开始

测试数据集获取

测试数据集可通过以下链接访问：https://github.com/koc-lab/yargitay_retrieval_dataset

模型加载与使用

可以按照以下方式加载模型并创建文档嵌入，然后利用这些文档嵌入进行检索。

from transformers import AutoModelForSequenceClassification, AutoTokenizer

bert_model = "KocLab-Bilkent/BERTurk-Legal"

model = AutoModelForSequenceClassification.from_pretrained(bert_model, output_hidden_states=True)
tokenizer = AutoTokenizer.from_pretrained(bert_model)

tokens = tokenizer("Örnek metin") # a dummy text is provided as input

output = model(tokens) 
docEmbeddings = output.hidden_states[-1]

✨ 主要特性

领域特定预训练：在土耳其法律领域的数据集上进行预训练，更适合法律案例检索任务。
自监督学习：采用掩码语言模型进行自监督训练，无需大量标注数据。
零样本分类：在零样本分类任务中，能在土耳其最高法院法律案例数据集上取得先进成果。

📦 安装指南

文档中未提及具体安装步骤，若有需要可参考transformers库的官方安装说明。

💻 使用示例

基础用法

from transformers import AutoModelForSequenceClassification, AutoTokenizer

bert_model = "KocLab-Bilkent/BERTurk-Legal"

model = AutoModelForSequenceClassification.from_pretrained(bert_model, output_hidden_states=True)
tokenizer = AutoTokenizer.from_pretrained(bert_model)

tokens = tokenizer("Örnek metin") # a dummy text is provided as input

output = model(tokens) 
docEmbeddings = output.hidden_states[-1]

高级用法

文档中未提及高级用法相关代码，若有更复杂的应用场景，可基于基础用法进行扩展。

📚 详细文档

BERTurk-Legal的详细信息可在下面引用部分提到的论文中找到。

📄 许可证

本项目采用MIT许可证。

📄 引用

如果您使用了该模型，请引用以下会议论文：

  @inproceedings{ozturk23berturkLegal,
    author={\"{O}zt\"{u}rk, Ceyhun E. and \"{O}z\c{c}elik, {\c{S}}. Bar{\i}\c{s} and Aykut Ko\c{c}},
    booktitle={2023 31st Signal Processing and Communications Applications Conference (SIU)}, 
    title={{A Transformer-Based Prior Legal Case Retrieval Method}}, 
    year={2023},
    volume={},
    number={},
    pages={1-4}
  }
  @mastersthesis{ozturk23legalNlp,
  author  = "\"{O}zt\"{u}rk, Ceyhun E.",
  title   = "Retrieving Turkish Prior Legal Cases with Deep Learning",
  school  = "Bilkent University",
  year    = "2023"
  }