MiniLM-L6-mnli-fever-docnli-ling-2c開源推理模型 - 免費部署長文本推理超在行

首頁

Minilm L6 Mnli Fever Docnli Ling 2c

由MoritzLaurer開發

基於8個NLI數據集訓練的二元自然語言推理模型，擅長處理長文本推理任務

文本分類

Transformers

英語#二元自然語言推理 #多數據集訓練 #長文本處理

下載量 22

發布時間 : 3/2/2022

模型概述

該模型在1,279,665個假設-前提對上訓練，專門用於判斷文本間是否蘊含關係，特別優化了長文本處理能力

模型特點

多數據集訓練

融合8個NLI數據集訓練，涵蓋多種文本類型和推理場景

長文本優化

包含DocNLI訓練數據，特別優化對長文檔的推理能力

高效推理

採用MiniLM-L6輕量架構，在保持較好性能的同時實現快速推理

二元分類

將傳統三分類NLI任務簡化為更實用的二元蘊含判斷

模型能力

文本蘊含判斷

零樣本分類

長文本推理

使用案例

內容分析

影評情感驗證

驗證用戶評論中的具體陳述是否與總體評價一致

可識別87%的矛盾陳述（基於示例推斷）

事實核查

聲明驗證

判斷新聞報道是否支持特定事實聲明

🚀 MiniLM-L6-mnli-fever-docnli-ling-2c

本項目的模型可用於文本分類和零樣本分類任務，通過在多個自然語言推理（NLI）數據集上訓練，能夠學習長距離推理，實現對“蘊含”或“非蘊含”的預測。

🚀 快速開始

使用示例

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "MoritzLaurer/MiniLM-L6-mnli-fever-docnli-ling-2c"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

premise = "I first thought that I liked the movie, but upon second thought it was actually disappointing."
hypothesis = "The movie was good."

input = tokenizer(premise, hypothesis, truncation=True, return_tensors="pt")
output = model(input["input_ids"].to(device))  # device = "cuda:0" or "cpu"
prediction = torch.softmax(output["logits"][0], -1).tolist()
label_names = ["entailment", "not_entailment"]
prediction = {name: round(float(pred) * 100, 1) for pred, name in zip(prediction, label_names)}
print(prediction)

✨ 主要特性

該模型在來自8個NLI數據集的1279665個假設 - 前提對上進行訓練，這些數據集包括MultiNLI、Fever-NLI、LingNLI和DocNLI（其中包括ANLI、QNLI、DUC、CNN/DailyMail、Curation）。
它是模型中心唯一在8個NLI數據集上訓練的模型，其中DocNLI包含非常長的文本，有助於學習長距離推理。
模型基於二元NLI進行訓練，用於預測“蘊含”或“非蘊含”。DocNLI將“中立”和“矛盾”類別合併為“非蘊含”，以創建更多訓練數據。
基礎模型是微軟的MiniLM-L6，速度非常快，但比其他模型的準確性稍低。

📚 詳細文檔

預期用途和限制

模型使用方法

使用該模型時，可參考上述代碼示例。

訓練數據

該模型在來自8個NLI數據集的1279665個假設 - 前提對上進行訓練，具體數據集如下：

MultiNLI
Fever-NLI
LingNLI
DocNLI（包含ANLI、QNLI、DUC、CNN/DailyMail、Curation）

訓練過程

使用Hugging Face訓練器進行訓練，超參數設置如下：

training_args = TrainingArguments(
    num_train_epochs=3,              # total number of training epochs
    learning_rate=2e-05,
    per_device_train_batch_size=32,   # batch size per device during training
    per_device_eval_batch_size=32,    # batch size for evaluation
    warmup_ratio=0.1,                # number of warmup steps for learning rate scheduler
    weight_decay=0.06,               # strength of weight decay
    fp16=True                        # mixed precision training
)