tsdae-lemone-mbert-base開源模型 - 免費轉換法國法律文本為768維向量

首頁

Tsdae Lemone Mbert Base

由louisbrulenaudet開發

這是一個基於mBERT的句子轉換器模型，專門針對法國法律領域進行優化，能夠將法律文本轉換為768維向量表示。

文本嵌入法語開源協議:Apache-2.0 #法國法律語義分析 #多法典適配 #去噪自動編碼

下載量 22

發布時間 : 12/17/2023

模型概述

該模型基於多語言BERT架構，通過法國法律文本數據進行領域適配訓練，主要用於法律文本的語義相似度計算和特徵提取。

模型特點

法律領域適配

專門針對法國法律文本進行優化，能更好理解法律術語和表達方式

多法典訓練

訓練數據涵蓋法國10部主要法典，覆蓋廣泛法律領域

去噪自動編碼

採用TSDAE(Transformer-based Sequential Denoising Auto-Encoder)訓練方法，增強模型魯棒性

模型能力

法律文本特徵提取

法律文檔語義搜索

法律文本聚類分析

法律文檔相似度計算

使用案例

法律智能

法律文檔檢索

快速查找與查詢語句語義相似的法律條文

提高法律研究和諮詢效率

法律文本分類

基於語義特徵對法律文檔進行分類整理

自動化文檔管理工作流程

法律科技

智能法律助手

為法律從業者提供相關條文推薦功能

提升法律服務質量

🚀 適用於法國法律實踐的領域自適應mBERT模型

本模型是專為法國法律實踐場景打造的領域自適應mBERT模型，藉助 sentence-transformers 框架，能將句子和段落映射到768維的密集向量空間，可用於聚類、語義搜索等自然語言處理任務。模型基於多語言預訓練，適配法國法律領域，能有效學習法律語言的內在特徵，為下游任務提供有力支持。

🚀 快速開始

本模型可通過 sentence-transformers 或 HuggingFace Transformers 兩種方式使用，以下為你詳細介紹使用方法。

📦 安裝指南

若使用 sentence-transformers，可通過以下命令安裝：

pip install -U sentence-transformers

💻 使用示例

基礎用法（Sentence-Transformers）

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer("louisbrulenaudet/tsdae-lemone-mbert-base")
embeddings = model.encode(sentences)
print(embeddings)

高級用法（HuggingFace Transformers）

若未安裝 sentence-transformers，可按以下方式使用：

from transformers import AutoTokenizer, AutoModel
import torch


def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained("louisbrulenaudet/tsdae-lemone-mbert-base")
model = AutoModel.from_pretrained("louisbrulenaudet/tsdae-lemone-mbert-base")

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, cls pooling.
sentence_embeddings = cls_pooling(model_output, encoded_input["attention_mask"])

print("Sentence embeddings:")
print(sentence_embeddings)

🔧 技術細節

訓練參數

本模型的訓練參數如下：

DataLoader：使用 torch.utils.data.dataloader.DataLoader，長度為25000，參數如下：

{'batch_size': 4, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Loss：使用 sentence_transformers.losses.DenoisingAutoEncoderLoss.DenoisingAutoEncoderLoss。
fit() 方法參數：

{
    "epochs": 1,
    "evaluation_steps": 0,
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 3e-05
    },
    "scheduler": "constantlr",
    "steps_per_epoch": null,
    "warmup_steps": 10000,
    "weight_decay": 0
}

訓練數據

訓練數據庫包含來自以下法國法律法典的100,000個隨機句子，每個句子長度超過40個字符：

法國知識產權法典（Code de la propriété intellectuelle）
法國民法典（Code civil）
法國勞動法法典（Code du travail）
法國貨幣和金融法典（Code monétaire et financier）
法國商法典（Code de commerce）
法國刑法典（Code pénal）
法國消費者法典（Code de la consommation）
法國環境法典（Code de l'environnement）
法國通用稅收法典（Code général des Impôts）
法國民事訴訟法典（Code de procédure civile）

每個法典的句子數量不超過15,000。

DenoisingAutoEncoderDataset 用於提供噪聲數據和乾淨數據的配對實例，使去噪自編碼器模型能夠學習從噪聲數據中重建或生成乾淨數據，有效捕捉法律文本的語言細微差別和領域特定特徵。

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

📄 許可證

本項目採用 Apache 2.0 許可證。

📚 詳細文檔

引用與作者

若你在研究中使用了本代碼，請使用以下 BibTeX 引用：

@misc{louisbrulenaudet2023,
  author =       {Louis Brulé Naudet},
  title =        {Domain-adapted mBERT for French Legal Practice},
  year =         {2023},
  howpublished = {\url{https://huggingface.co/louisbrulenaudet/tsdae-lemone-mbert-base}},
}

反饋

若你有任何反饋，請通過 louisbrulenaudet@icloud.com 聯繫我們。

信息表格

屬性	詳情
模型類型	適用於法國法律實踐的領域自適應mBERT模型
訓練數據	來自法國知識產權法典、民法典、勞動法法典等10部法典的100,000個隨機句子
許可證	Apache 2.0