MeaningBERT开源模型 - 免费评估句子间语义保持程度的自动化工具

首页

Meaningbert

由 davebulaval 开发

用于评估句子间语义保持程度的自动化可训练指标

文本嵌入

Transformers

#语义相似度评估 #自动化合理性检验 #句子对评分

下载量 785

发布时间 : 11/14/2023

模型简介

MeaningBERT是一个基于BERT的模型，专门用于评估两个句子之间的语义保持程度。其设计目标是提供与人类判断高度相关的自动化语义评估指标，适用于文本简化、改写等场景的质量评估。

模型特点

语义保持评估

专门设计用于量化评估两个句子间的语义保持程度

与人类判断高度相关

模型输出与人类对语义保持的主观判断高度一致

自动化合理性检验

内置相同句子和无关句子的自动化测试框架

改进的训练方案

采用500周期训练和更鲁棒的数据增强技术

模型能力

句子语义相似度评估

文本简化质量评估

改写文本质量评估

语义保持自动化测试

使用案例

文本处理质量评估

文本简化评估

评估简化文本与原文的语义保持程度

与人类评估结果高度相关

改写质量检测

检测改写文本是否保持了原句的核心语义

能有效识别语义偏差

教育技术

语言学习辅助

评估学习者改写句子时的语义保持情况

提供客观的语义保持评分

🚀 MeaningBERT

MeaningBERT 是一种用于评估句子间意义保留程度的自动且可训练的指标。它能够高度关联人类判断和合理性检查，有效评估两个句子之间的意义保留情况。

🚀 快速开始

MeaningBERT 是一种用于评估句子间意义保留程度的自动且可训练的指标。它在文章 MeaningBERT: assessing meaning preservation between sentences 中被提出，旨在评估两个句子之间的意义保留情况，且该评估结果与人类判断和合理性检查高度相关。如需更多详情，请参考我们公开发表的文章。

此公开版本的模型使用了训练效果最佳的模型（在我们的文章中，我们展示的是 10 个模型的平均性能结果），并进行了更长时间的训练（500 个 epoch 而非 250 个）。我们后来观察到，该模型可以进一步降低验证损失并提高性能。此外，我们将文章中使用的数据增强技术更换为更强大的技术，该技术还包含了意义函数的交换性，即 Meaning(Sent_a, Sent_b) = Meaning(Sent_b, Sent_a)。

✨ 主要特性

合理性检查

与人类判断的相关性是评估意义保留指标质量的一种方法。然而，由于它以人类判断为黄金标准，因此具有主观性，并且由于需要大量由多人标注的数据集，成本较高。作为替代方案，我们设计了两个自动化测试：评估相同句子之间的意义保留情况（应 100% 保留）和不相关句子之间的意义保留情况（应 0% 保留）。在这些测试中，意义保留的目标值不是主观的，并且不需要人类标注即可测量。它们代表了一个好的自动意义保留指标应该能够达到的简单且最低的阈值。即，一个指标至少应该能够在比较两个相同句子时返回完美分数（即 100%），并在两个句子完全不相关时返回零分（即 0%）。

相同句子

第一个测试评估相同句子之间的意义保留情况。为了分析指标通过此测试的能力，我们统计指标评分大于或等于阈值 X∈[95, 99] 的次数，并将其除以句子数量，以创建指标给出预期评分的次数比例。为了考虑计算机浮点误差，我们将评分四舍五入到最接近的整数，并且不使用 100% 的阈值。

不相关句子

我们的第二个测试评估源句子与由大语言模型生成的不相关句子之间的意义保留情况。其思路是验证当给定一个主要由不相关单词组成的完全不相关句子（也称为乱序单词）时，指标是否能得出 0 的意义保留评分。由于此测试的预期评分为 0，我们检查指标评分是否小于或等于阈值 X∈[5, 1]。同样，为了考虑计算机浮点误差，我们将评分四舍五入到最接近的整数，并且不使用 0% 的阈值。

💻 使用示例

基础用法

你可以将 MeaningBERT 作为一个模型使用，通过以下代码在 HuggingFace 上进行重新训练或推理：

# Load model directly
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("davebulaval/MeaningBERT")
model = AutoModelForSequenceClassification.from_pretrained("davebulaval/MeaningBERT")

高级用法

你也可以将 MeaningBERT 作为评估指标使用（无需重新训练），以下是不同方式的示例代码：

使用 HuggingFace 进行评估

import torch

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("davebulaval/MeaningBERT")
scorer = AutoModelForSequenceClassification.from_pretrained("davebulaval/MeaningBERT")
scorer.eval()

documents = ["He wanted to make them pay.", "This sandwich looks delicious.", "He wants to eat."]
simplifications = ["He wanted to make them pay.", "This sandwich looks delicious.",
                   "Whatever, whenever, this is a sentence."]

# We tokenize the text as a pair and return Pytorch Tensors
tokenize_text = tokenizer(documents, simplifications, truncation=True, padding=True, return_tensors="pt")

with torch.no_grad():
    # We process the text
    scores = scorer(**tokenize_text)

print(scores.logits.tolist())

使用 HuggingFace 指标模块进行评估

import evaluate

documents = ["He wanted to make them pay.", "This sandwich looks delicious.", "He wants to eat."]
simplifications = ["He wanted to make them pay.", "This sandwich looks delicious.",
                   "Whatever, whenever, this is a sentence."]

meaning_bert = evaluate.load("davebulaval/meaningbert")

print(meaning_bert.compute(references=documents, predictions=simplifications))

📚 详细文档

如需引用 MeaningBERT，请使用以下 BibTeX 格式：

@ARTICLE{10.3389/frai.2023.1223924,
AUTHOR={Beauchemin, David and Saggion, Horacio and Khoury, Richard},    
TITLE={MeaningBERT: assessing meaning preservation between sentences},      
JOURNAL={Frontiers in Artificial Intelligence},      
VOLUME={6},           
YEAR={2023},      
URL={https://www.frontiersin.org/articles/10.3389/frai.2023.1223924},       
DOI={10.3389/frai.2023.1223924},      
ISSN={2624-8212},   
}