MiniLM-L6-mnli-fever-docnli-ling-2c开源推理模型 - 免费部署长文本推理超在行

首页

Minilm L6 Mnli Fever Docnli Ling 2c

由 MoritzLaurer 开发

基于8个NLI数据集训练的二元自然语言推理模型，擅长处理长文本推理任务

文本分类

Transformers

英语#二元自然语言推理 #多数据集训练 #长文本处理

下载量 22

发布时间 : 3/2/2022

模型简介

该模型在1,279,665个假设-前提对上训练，专门用于判断文本间是否蕴含关系，特别优化了长文本处理能力

模型特点

多数据集训练

融合8个NLI数据集训练，涵盖多种文本类型和推理场景

长文本优化

包含DocNLI训练数据，特别优化对长文档的推理能力

高效推理

采用MiniLM-L6轻量架构，在保持较好性能的同时实现快速推理

二元分类

将传统三分类NLI任务简化为更实用的二元蕴含判断

模型能力

文本蕴含判断

零样本分类

长文本推理

使用案例

内容分析

影评情感验证

验证用户评论中的具体陈述是否与总体评价一致

可识别87%的矛盾陈述（基于示例推断）

事实核查

声明验证

判断新闻报道是否支持特定事实声明

🚀 MiniLM-L6-mnli-fever-docnli-ling-2c

本项目的模型可用于文本分类和零样本分类任务，通过在多个自然语言推理（NLI）数据集上训练，能够学习长距离推理，实现对“蕴含”或“非蕴含”的预测。

🚀 快速开始

使用示例

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "MoritzLaurer/MiniLM-L6-mnli-fever-docnli-ling-2c"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

premise = "I first thought that I liked the movie, but upon second thought it was actually disappointing."
hypothesis = "The movie was good."

input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))  # device = "cuda:0" or "cpu"
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "not_entailment"]
prediction = {name: round(float(pred) * 100, 1) for pred, name in zip(prediction, label_names)}
print(prediction)

✨ 主要特性

该模型在来自8个NLI数据集的1279665个假设 - 前提对上进行训练，这些数据集包括MultiNLI、Fever-NLI、LingNLI和DocNLI（其中包括ANLI、QNLI、DUC、CNN/DailyMail、Curation）。
它是模型中心唯一在8个NLI数据集上训练的模型，其中DocNLI包含非常长的文本，有助于学习长距离推理。
模型基于二元NLI进行训练，用于预测“蕴含”或“非蕴含”。DocNLI将“中立”和“矛盾”类别合并为“非蕴含”，以创建更多训练数据。
基础模型是微软的MiniLM-L6，速度非常快，但比其他模型的准确性稍低。

📚 详细文档

预期用途和限制

模型使用方法

使用该模型时，可参考上述代码示例。

训练数据

该模型在来自8个NLI数据集的1279665个假设 - 前提对上进行训练，具体数据集如下：

MultiNLI
Fever-NLI
LingNLI
DocNLI（包含ANLI、QNLI、DUC、CNN/DailyMail、Curation）

训练过程

使用Hugging Face训练器进行训练，超参数设置如下：

training_args = TrainingArguments(
    num_train_epochs=3,              # total number of training epochs
    learning_rate=2e-05,
    per_device_train_batch_size=32,   # batch size per device during training
    per_device_eval_batch_size=32,    # batch size for evaluation
    warmup_ratio=0.1,                # number of warmup steps for learning rate scheduler
    weight_decay=0.06,               # strength of weight decay
    fp16=True                        # mixed precision training
)