🚀 适用于法国法律实践的领域自适应mBERT模型
本模型是专为法国法律实践场景打造的领域自适应mBERT模型,借助 sentence-transformers 框架,能将句子和段落映射到768维的密集向量空间,可用于聚类、语义搜索等自然语言处理任务。模型基于多语言预训练,适配法国法律领域,能有效学习法律语言的内在特征,为下游任务提供有力支持。
🚀 快速开始
本模型可通过 sentence-transformers 或 HuggingFace Transformers 两种方式使用,以下为你详细介绍使用方法。
📦 安装指南
若使用 sentence-transformers,可通过以下命令安装:
pip install -U sentence-transformers
💻 使用示例
基础用法(Sentence-Transformers)
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer("louisbrulenaudet/tsdae-lemone-mbert-base")
embeddings = model.encode(sentences)
print(embeddings)
高级用法(HuggingFace Transformers)
若未安装 sentence-transformers,可按以下方式使用:
from transformers import AutoTokenizer, AutoModel
import torch
def cls_pooling(model_output, attention_mask):
return model_output[0][:,0]
sentences = ['This is an example sentence', 'Each sentence is converted']
tokenizer = AutoTokenizer.from_pretrained("louisbrulenaudet/tsdae-lemone-mbert-base")
model = AutoModel.from_pretrained("louisbrulenaudet/tsdae-lemone-mbert-base")
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
with torch.no_grad():
model_output = model(**encoded_input)
sentence_embeddings = cls_pooling(model_output, encoded_input["attention_mask"])
print("Sentence embeddings:")
print(sentence_embeddings)
🔧 技术细节
训练参数
本模型的训练参数如下:
- DataLoader:使用
torch.utils.data.dataloader.DataLoader
,长度为25000,参数如下:
{'batch_size': 4, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}
- Loss:使用
sentence_transformers.losses.DenoisingAutoEncoderLoss.DenoisingAutoEncoderLoss
。
- fit() 方法参数:
{
"epochs": 1,
"evaluation_steps": 0,
"max_grad_norm": 1,
"optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
"optimizer_params": {
"lr": 3e-05
},
"scheduler": "constantlr",
"steps_per_epoch": null,
"warmup_steps": 10000,
"weight_decay": 0
}
训练数据
训练数据库包含来自以下法国法律法典的100,000个随机句子,每个句子长度超过40个字符:
- 法国知识产权法典(Code de la propriété intellectuelle)
- 法国民法典(Code civil)
- 法国劳动法法典(Code du travail)
- 法国货币和金融法典(Code monétaire et financier)
- 法国商法典(Code de commerce)
- 法国刑法典(Code pénal)
- 法国消费者法典(Code de la consommation)
- 法国环境法典(Code de l'environnement)
- 法国通用税收法典(Code général des Impôts)
- 法国民事诉讼法典(Code de procédure civile)
每个法典的句子数量不超过15,000。
DenoisingAutoEncoderDataset
用于提供噪声数据和干净数据的配对实例,使去噪自编码器模型能够学习从噪声数据中重建或生成干净数据,有效捕捉法律文本的语言细微差别和领域特定特征。
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)
📄 许可证
本项目采用 Apache 2.0 许可证。
📚 详细文档
引用与作者
若你在研究中使用了本代码,请使用以下 BibTeX 引用:
@misc{louisbrulenaudet2023,
author = {Louis Brulé Naudet},
title = {Domain-adapted mBERT for French Legal Practice},
year = {2023},
howpublished = {\url{https://huggingface.co/louisbrulenaudet/tsdae-lemone-mbert-base}},
}
反馈
若你有任何反馈,请通过 louisbrulenaudet@icloud.com 联系我们。
信息表格
属性 |
详情 |
模型类型 |
适用于法国法律实践的领域自适应mBERT模型 |
训练数据 |
来自法国知识产权法典、民法典、劳动法法典等10部法典的100,000个随机句子 |
许可证 |
Apache 2.0 |