BLEURT-tiny-512开源文本质量评估模型 - 免费评估自然语言生成质量

首页

Bleurt Tiny 512

由 Elron 开发

BLEURT-tiny-512是谷歌研究院开发的文本质量评估模型，基于BERT架构的PyTorch实现版本，用于评估自然语言生成任务的质量。

文本分类

Transformers

#文本质量评估 #BERT微调 #生成评价

下载量 291.96k

发布时间 : 3/2/2022

模型简介

该模型是ACL论文中原版BLEURT模型的轻量级实现，主要用于文本分类和自然语言生成质量评估任务。

模型特点

轻量级实现

作为BLEURT的tiny版本，保持了核心功能的同时更加轻量化

基于BERT架构

利用BERT的强大语义理解能力进行文本质量评估

PyTorch实现

提供PyTorch框架版本，便于集成和使用

模型能力

文本质量评估

自然语言生成评分

文本分类

使用案例

自然语言处理

机器翻译质量评估

评估机器翻译输出与参考翻译的质量差异

可提供自动化评分，与人工评估相关性高

文本摘要质量评估

对自动生成的文本摘要进行质量评分

有效区分不同质量的摘要输出

🚀 bleurt-tiny-512模型卡片

bleurt-tiny-512是ACL论文中原始BLEURT模型的Pytorch版本，可用于文本分类任务。该模型基于BERT，由Google Research团队开发。

🚀 快速开始

使用以下代码开始使用该模型：

from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("Elron/bleurt-tiny-512")
model = AutoModelForSequenceClassification.from_pretrained("Elron/bleurt-tiny-512")
model.eval()

references = ["hello world", "hello world"]
candidates = ["hi universe", "bye world"]

with torch.no_grad():
  scores = model(**tokenizer(references, candidates, return_tensors='pt'))[0].squeeze()

print(scores) # tensor([-0.9414, -0.5678])

查看此笔记本获取模型转换代码。

✨ 主要特性

基于BERT架构，适用于文本分类任务。
提供Pytorch版本，方便使用。

📚 详细文档

模型详情

模型描述

Pytorch版本的原始BLEURT模型，来自ACL论文。

开发者：Google Research的Elron Bandel、Thibault Sellam、Dipanjan Das和Ankur P. Parikh。
共享者：Elron Bandel。
模型类型：文本分类。
语言：待补充更多信息。
许可证：待补充更多信息。
父模型：BERT。
更多信息资源：

使用场景

直接使用

该模型可用于文本分类任务。

超出适用范围的使用

该模型不应用于故意为人们创造敌对或排斥性的环境。

偏差、风险和局限性

大量研究探讨了语言模型的偏差和公平性问题（例如，参见Sheng等人 (2021) 和 Bender等人 (2021)）。该模型生成的预测可能包含针对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

建议

用户（直接用户和下游用户）应了解该模型的风险、偏差和局限性。如需进一步建议，待补充更多信息。

训练详情

训练数据

模型作者在相关论文中指出：

我们使用2017年至2019年WMT指标共享任务的英语言语对。对于每年，我们使用官方WMT测试集，其中包括来自新闻领域的数千对有人工评分的句子。每年的训练集分别包含5360、9492和147691条记录。

评估

测试数据、因素和指标

测试数据

2018年和2019年[WMT指标共享任务的英语言语对]的测试集噪声更大。

环境影响

可以使用Lacoste等人 (2019) 中提出的机器学习影响计算器来估算碳排放。

硬件类型：待补充更多信息。
使用时长：待补充更多信息。
云服务提供商：待补充更多信息。
计算区域：待补充更多信息。
碳排放：待补充更多信息。

引用

@inproceedings{sellam2020bleurt,
  title = {BLEURT: Learning Robust Metrics for Text Generation},
  author = {Thibault Sellam and Dipanjan Das and Ankur P Parikh},
  year = {2020},
  booktitle = {Proceedings of ACL}
}