🚀 適用於法國法律實踐的領域自適應mBERT模型
本模型是專為法國法律實踐場景打造的領域自適應mBERT模型,藉助 sentence-transformers 框架,能將句子和段落映射到768維的密集向量空間,可用於聚類、語義搜索等自然語言處理任務。模型基於多語言預訓練,適配法國法律領域,能有效學習法律語言的內在特徵,為下游任務提供有力支持。
🚀 快速開始
本模型可通過 sentence-transformers 或 HuggingFace Transformers 兩種方式使用,以下為你詳細介紹使用方法。
📦 安裝指南
若使用 sentence-transformers,可通過以下命令安裝:
pip install -U sentence-transformers
💻 使用示例
基礎用法(Sentence-Transformers)
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer("louisbrulenaudet/tsdae-lemone-mbert-base")
embeddings = model.encode(sentences)
print(embeddings)
高級用法(HuggingFace Transformers)
若未安裝 sentence-transformers,可按以下方式使用:
from transformers import AutoTokenizer, AutoModel
import torch
def cls_pooling(model_output, attention_mask):
return model_output[0][:,0]
sentences = ['This is an example sentence', 'Each sentence is converted']
tokenizer = AutoTokenizer.from_pretrained("louisbrulenaudet/tsdae-lemone-mbert-base")
model = AutoModel.from_pretrained("louisbrulenaudet/tsdae-lemone-mbert-base")
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
with torch.no_grad():
model_output = model(**encoded_input)
sentence_embeddings = cls_pooling(model_output, encoded_input["attention_mask"])
print("Sentence embeddings:")
print(sentence_embeddings)
🔧 技術細節
訓練參數
本模型的訓練參數如下:
- DataLoader:使用
torch.utils.data.dataloader.DataLoader
,長度為25000,參數如下:
{'batch_size': 4, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}
- Loss:使用
sentence_transformers.losses.DenoisingAutoEncoderLoss.DenoisingAutoEncoderLoss
。
- fit() 方法參數:
{
"epochs": 1,
"evaluation_steps": 0,
"max_grad_norm": 1,
"optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
"optimizer_params": {
"lr": 3e-05
},
"scheduler": "constantlr",
"steps_per_epoch": null,
"warmup_steps": 10000,
"weight_decay": 0
}
訓練數據
訓練數據庫包含來自以下法國法律法典的100,000個隨機句子,每個句子長度超過40個字符:
- 法國知識產權法典(Code de la propriété intellectuelle)
- 法國民法典(Code civil)
- 法國勞動法法典(Code du travail)
- 法國貨幣和金融法典(Code monétaire et financier)
- 法國商法典(Code de commerce)
- 法國刑法典(Code pénal)
- 法國消費者法典(Code de la consommation)
- 法國環境法典(Code de l'environnement)
- 法國通用稅收法典(Code général des Impôts)
- 法國民事訴訟法典(Code de procédure civile)
每個法典的句子數量不超過15,000。
DenoisingAutoEncoderDataset
用於提供噪聲數據和乾淨數據的配對實例,使去噪自編碼器模型能夠學習從噪聲數據中重建或生成乾淨數據,有效捕捉法律文本的語言細微差別和領域特定特徵。
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)
📄 許可證
本項目採用 Apache 2.0 許可證。
📚 詳細文檔
引用與作者
若你在研究中使用了本代碼,請使用以下 BibTeX 引用:
@misc{louisbrulenaudet2023,
author = {Louis Brulé Naudet},
title = {Domain-adapted mBERT for French Legal Practice},
year = {2023},
howpublished = {\url{https://huggingface.co/louisbrulenaudet/tsdae-lemone-mbert-base}},
}
反饋
若你有任何反饋,請通過 louisbrulenaudet@icloud.com 聯繫我們。
信息表格
屬性 |
詳情 |
模型類型 |
適用於法國法律實踐的領域自適應mBERT模型 |
訓練數據 |
來自法國知識產權法典、民法典、勞動法法典等10部法典的100,000個隨機句子 |
許可證 |
Apache 2.0 |