Legal-BERTimbau-sts-base-ma开源模型 - 可用于葡萄牙语法律句子相似度计算

Home

Legal BERTimbau Sts Base Ma

Developed by rufimelo

这是一个基于BERTimbau的葡萄牙语法律领域句子嵌入模型，专门用于句子相似度计算任务。

文本嵌入

Transformers

Other#葡萄牙语法律文本 #语义相似度计算 #法律领域适配

Downloads 16

Release Time : 8/20/2022

Model Overview

该模型能将葡萄牙语法律文本映射到768维向量空间，适用于法律文档聚类、语义搜索等任务。

Model Features

法律领域适配

专门针对葡萄牙语法律文本进行了优化和适配

句子嵌入

能将句子和段落转换为768维的密集向量表示

高精度相似度计算

在多个葡萄牙语STS数据集上表现出色

Model Capabilities

句子相似度计算

法律文本语义分析

文档聚类

语义搜索

Use Cases

法律文档处理

法律文书相似度分析

比较不同法律文书之间的语义相似度

准确识别相似法律概念和条款

法律检索系统

构建基于语义的法律文档检索系统

提高法律检索的相关性和准确性

法律智能助手

法律问答系统

支持基于语义匹配的法律问答功能

提升问答系统的理解能力

🚀 rufimelo/Legal-BERTimbau-sts-base-ma

这是一个sentence-transformers模型，它可以将句子和段落映射到一个768维的密集向量空间，可用于聚类或语义搜索等任务。rufimelo/rufimelo/Legal-BERTimbau-sts-base-ma基于Legal-BERTimbau-base，而Legal-BERTimbau-base则源自BERTimbau large。该模型适用于葡萄牙语法律领域，并在葡萄牙语数据集上针对语义文本相似度（STS）进行了训练。

🚀 快速开始

✨ 主要特性

基于sentence-transformers框架，能将句子和段落映射到768维的密集向量空间。
适用于葡萄牙语法律领域，在葡萄牙语数据集上进行了STS训练。
可用于聚类、语义搜索等任务。

📦 安装指南

若要使用此模型，需先安装sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
sentences = ["Isto é um exemplo", "Isto é um outro exemplo"]

model = SentenceTransformer('rufimelo/Legal-BERTimbau-sts-base-ma')
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('rufimelo/Legal-BERTimbau-sts-base-ma')
model = AutoModel.from_pretrained('rufimelo/Legal-BERTimbau-sts-base-ma')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

评估结果（STS）

模型	Assin	Assin2	stsb_multi_mt pt	平均值
Legal-BERTimbau-sts-base	0.71457	0.73545	0.72383	0.72462
Legal-BERTimbau-sts-base-ma	0.74874	0.79532	0.82254	0.78886
Legal-BERTimbau-sts-base-ma-v2	0.75481	0.80262	0.82178	0.79307
Legal-BERTimbau-base-TSDAE-sts	0.78814	0.81380	0.75777	0.78657
Legal-BERTimbau-sts-large	0.76629	0.82357	0.79120	0.79369
Legal-BERTimbau-sts-large-v2	0.76299	0.81121	0.81726	0.79715
Legal-BERTimbau-sts-large-ma	0.76195	0.81622	0.82608	0.80142
Legal-BERTimbau-sts-large-ma-v2	0.7836	0.8462	0.8261	0.81863
Legal-BERTimbau-sts-large-ma-v3	0.7749	0.8470	0.8364	0.81943
Legal-BERTimbau-large-v2-sts	0.71665	0.80106	0.73724	0.75165
Legal-BERTimbau-large-TSDAE-sts	0.72376	0.79261	0.73635	0.75090
Legal-BERTimbau-large-TSDAE-sts-v2	0.81326	0.83130	0.786314	0.81029
Legal-BERTimbau-large-TSDAE-sts-v3	0.80703	0.82270	0.77638	0.80204
BERTimbau base Fine-tuned for STS	0.78455	0.80626	0.82841	0.80640
BERTimbau large Fine-tuned for STS	0.78193	0.81758	0.83784	0.81245
paraphrase-multilingual-mpnet-base-v2	0.71457	0.79831	0.83999	0.78429
paraphrase-multilingual-mpnet-base-v2 Fine-tuned with assin(s)	0.77641	0.79831	0.84575	0.80682

训练信息

rufimelo/Legal-BERTimbau-sts-base-ma基于Legal-BERTimbau-base，而Legal-BERTimbau-base源自BERTimbau base。

首先，由于葡萄牙语数据集的缺乏，该模型采用多语言知识蒸馏进行训练。在多语言知识蒸馏过程中，教师模型为'sentence-transformers/paraphrase-xlm-r-multilingual-v1'，假设支持的语言为英语，要学习的语言为葡萄牙语。

该模型针对语义文本相似度进行训练，并在assin、assin2和stsb_multi_mt pt等数据集上进行了微调。

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False})
)

🔧 技术细节

该模型基于Sentence-Transformers框架，使用BertModel作为基础模型，并通过池化层将词嵌入转换为句子嵌入。在训练过程中，采用了多语言知识蒸馏和微调等技术，以适应葡萄牙语法律领域的语义文本相似度任务。

📄 许可证

文档未提及相关许可证信息。

引用与作者

如果使用此模型，请引用以下文献：

@inproceedings{souza2020bertimbau,
  author    = {F{\'a}bio Souza and
               Rodrigo Nogueira and
               Roberto Lotufo},
  title     = {{BERT}imbau: pretrained {BERT} models for {B}razilian {P}ortuguese},
  booktitle = {9th Brazilian Conference on Intelligent Systems, {BRACIS}, Rio Grande do Sul, Brazil, October 20-23 (to appear)},
  year      = {2020}
}

@inproceedings{fonseca2016assin,
  title={ASSIN: Avaliacao de similaridade semantica e inferencia textual},
  author={Fonseca, E and Santos, L and Criscuolo, Marcelo and Aluisio, S},
  booktitle={Computational Processing of the Portuguese Language-12th International Conference, Tomar, Portugal},
  pages={13--15},
  year={2016}
}

@inproceedings{real2020assin,
  title={The assin 2 shared task: a quick overview},
  author={Real, Livy and Fonseca, Erick and Oliveira, Hugo Goncalo},
  booktitle={International Conference on Computational Processing of the Portuguese Language},
  pages={406--412},
  year={2020},
  organization={Springer}
}
@InProceedings{huggingface:dataset:stsb_multi_mt,
title = {Machine translated multilingual STS benchmark dataset.},
author={Philip May},
year={2021},
url={https://github.com/PhilipMay/stsb-multi-mt}
}