🚀 BERTurk-Legal:基於Transformer的土耳其法律案例檢索模型
BERTurk-Legal是一款基於Transformer架構的語言模型,旨在檢索先前的法律案例。它在土耳其法律領域的數據集上進行了預訓練,該數據集不包含與先前法院案例檢索任務相關的任何標籤。BERTurk-Legal採用掩碼語言模型(Masked Language Modeling)以自監督的方式進行訓練。通過零樣本分類,BERTurk-Legal在由土耳其最高法院法律案例組成的數據集上取得了最先進的成果。實驗結果表明,開發特定於土耳其法律領域的語言模型是十分必要的。BERTurk-Legal的詳細信息可在下面引用部分提到的論文中找到。
🚀 快速開始
測試數據集獲取
測試數據集可通過以下鏈接訪問:https://github.com/koc-lab/yargitay_retrieval_dataset
模型加載與使用
可以按照以下方式加載模型並創建文檔嵌入,然後利用這些文檔嵌入進行檢索。
from transformers import AutoModelForSequenceClassification, AutoTokenizer
bert_model = "KocLab-Bilkent/BERTurk-Legal"
model = AutoModelForSequenceClassification.from_pretrained(bert_model, output_hidden_states=True)
tokenizer = AutoTokenizer.from_pretrained(bert_model)
tokens = tokenizer("Örnek metin")
output = model(tokens)
docEmbeddings = output.hidden_states[-1]
✨ 主要特性
- 領域特定預訓練:在土耳其法律領域的數據集上進行預訓練,更適合法律案例檢索任務。
- 自監督學習:採用掩碼語言模型進行自監督訓練,無需大量標註數據。
- 零樣本分類:在零樣本分類任務中,能在土耳其最高法院法律案例數據集上取得先進成果。
📦 安裝指南
文檔中未提及具體安裝步驟,若有需要可參考transformers
庫的官方安裝說明。
💻 使用示例
基礎用法
from transformers import AutoModelForSequenceClassification, AutoTokenizer
bert_model = "KocLab-Bilkent/BERTurk-Legal"
model = AutoModelForSequenceClassification.from_pretrained(bert_model, output_hidden_states=True)
tokenizer = AutoTokenizer.from_pretrained(bert_model)
tokens = tokenizer("Örnek metin")
output = model(tokens)
docEmbeddings = output.hidden_states[-1]
高級用法
文檔中未提及高級用法相關代碼,若有更復雜的應用場景,可基於基礎用法進行擴展。
📚 詳細文檔
BERTurk-Legal的詳細信息可在下面引用部分提到的論文中找到。
📄 許可證
本項目採用MIT許可證。
📄 引用
如果您使用了該模型,請引用以下會議論文:
@inproceedings{ozturk23berturkLegal,
author={\"{O}zt\"{u}rk, Ceyhun E. and \"{O}z\c{c}elik, {\c{S}}. Bar{\i}\c{s} and Aykut Ko\c{c}},
booktitle={2023 31st Signal Processing and Communications Applications Conference (SIU)},
title={{A Transformer-Based Prior Legal Case Retrieval Method}},
year={2023},
volume={},
number={},
pages={1-4}
}
@mastersthesis{ozturk23legalNlp,
author = "\"{O}zt\"{u}rk, Ceyhun E.",
title = "Retrieving Turkish Prior Legal Cases with Deep Learning",
school = "Bilkent University",
year = "2023"
}
📋 模型信息
屬性 |
詳情 |
模型類型 |
基於Transformer的語言模型 |
評估指標 |
F1、精確率、召回率 |
標籤 |
法律 |