MiniCheck-Flan-T5-Large開源事實核查模型 - 精準預測文檔是否支持聲明

首頁

Minicheck Flan T5 Large

由lytang開發

MiniCheck-Flan-T5-Large是一個基於Flan-T5-Large架構的事實核查模型，用於預測文檔是否支持給定聲明。

文本分類

Transformers

英語開源協議:MIT #高效事實核查 #LLM生成內容驗證 #文檔支持判斷

下載量 1,410

發布時間 : 4/14/2024

模型概述

該模型用於判斷給定文檔是否支持特定聲明，輸出二元標籤（1表示支持，0表示不支持）。它是參數量小於10億的最佳事實核查模型之一，性能媲美GPT-4。

模型特點

高效事實核查

參數量小於10億但性能媲美GPT-4，成本降低400倍

高質量訓練數據

基於35K組合數據訓練，包括21K ANLI數據和14K新生成的合成數據

句子級別預測

可在句子級別判斷文檔是否支持聲明

模型能力

事實核查

文本分類

文檔-聲明匹配

使用案例

內容審核

新聞事實核查

驗證新聞報道中的聲明是否被原始文檔支持

高準確率識別虛假或未經證實的聲明

學術研究

論文引用驗證

檢查學術論文中的引用是否準確反映被引文獻內容

有效識別錯誤引用或斷章取義的情況

🚀 MiniCheck-Flan-T5-Large

MiniCheck-Flan-T5-Large 是一個用於事實核查的模型，它基於 Flan-T5-Large 架構，能夠對句子級別的陳述進行判斷，確定其是否有文檔支持。該模型在新收集的基準測試中表現出色，性能與 GPT-4 相當，但成本僅為其 1/400。

🚀 快速開始

你可以運行以下命令來安裝 MiniCheck 包 及其所有必要的依賴項：

pip install "minicheck @ git+https://github.com/Liyan06/MiniCheck.git@main"

✨ 主要特性

高效事實核查：能夠在句子級別對陳述進行快速準確的事實核查。
性能卓越：在新收集的基準測試中，大幅超越現有同規模的專業事實核查器，性能與 GPT-4 相當，但成本更低。
多模型變體：除了 MiniCheck-Flan-T5-Large，還有其他三種不同規模的模型變體可供選擇。

📦 安裝指南

請運行以下命令安裝 MiniCheck 包 和所有必要的依賴項：

pip install "minicheck @ git+https://github.com/Liyan06/MiniCheck.git@main"

💻 使用示例

基礎用法

from minicheck.minicheck import MiniCheck
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

doc = "A group of students gather in the school library to study for their upcoming final exams."
claim_1 = "The students are preparing for an examination."
claim_2 = "The students are on vacation."

# model_name can be one of ['roberta-large', 'deberta-v3-large', 'flan-t5-large', 'Bespoke-MiniCheck-7B']
scorer = MiniCheck(model_name='flan-t5-large', cache_dir='./ckpts')
pred_label, raw_prob, _, _ = scorer.score(docs=[doc, doc], claims=[claim_1, claim_2])

print(pred_label) # [1, 0]
print(raw_prob)   # [0.9805923700332642, 0.007121307775378227]

高級用法

在我們的 LLM-AggreFact 基準測試上進行測試：

import pandas as pd
from datasets import load_dataset
from minicheck.minicheck import MiniCheck
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

# load 29K test data
df = pd.DataFrame(load_dataset("lytang/LLM-AggreFact")['test'])
docs = df.doc.values
claims = df.claim.values

scorer = MiniCheck(model_name='flan-t5-large', cache_dir='./ckpts')
pred_label, raw_prob, _, _ = scorer.score(docs=docs, claims=claims)  # ~ 500 docs/min, depending on hardware

評估基準測試的結果：

from sklearn.metrics import balanced_accuracy_score

df['preds'] = pred_label
result_df = pd.DataFrame(columns=['Dataset', 'BAcc'])
for dataset in df.dataset.unique():
    sub_df = df[df.dataset == dataset]
    bacc = balanced_accuracy_score(sub_df.label, sub_df.preds) * 100
    result_df.loc[len(result_df)] = [dataset, bacc]

result_df.loc[len(result_df)] = ['Average', result_df.BAcc.mean()]
result_df.round(1)

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於 Flan-T5-Large 的事實核查模型
訓練數據	由 21K ANLI 數據和 14K 結構化生成的合成數據組成

模型變體

我們還有其他三種 MiniCheck 模型變體：

bespokelabs/Bespoke-Minicheck-7B（模型大小：7B）
lytang/MiniCheck-RoBERTa-Large（模型大小：0.4B）
lytang/MiniCheck-DeBERTa-v3-Large（模型大小：0.4B）

模型性能

這些模型的性能在我們新收集的基準測試 LLM-AggreFact 上進行評估，該基準測試由 11 個最近的人工標註的事實核查和基於大語言模型生成的數據集組成。MiniCheck-Flan-T5-Large 大幅超越所有現有同規模的專業事實核查器（絕對提升 4 - 10%），性能與 GPT-4 相當，但成本僅為其 1/400。完整結果請參考我們的論文。

注意事項

我們僅在真實陳述上評估了模型的性能，沒有對模型生成的陳述進行任何形式的人工干預，例如注入特定的錯誤類型。那些經過編輯的陳述不能反映大語言模型的實際行為。

🔧 技術細節

該模型基於 Flan-T5-Large 架構，通過在 35K 數據的組合上進行微調得到。具體數據包括 21K ANLI 數據和 14K 結構化生成的合成數據。模型在句子級別進行預測，輸入為文檔和陳述，輸出為二進制標籤（1 表示支持，0 表示不支持）。

📄 許可證

本項目採用 MIT 許可證。

📖 引用

如果你使用了該模型，請引用以下論文：

@InProceedings{tang-etal-2024-minicheck,
  title = {MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents},
  author = {Liyan Tang and Philippe Laban and Greg Durrett},
  booktitle = {Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing},
  year = {2024},
  publisher = {Association for Computational Linguistics},
  url = {https://arxiv.org/pdf/2404.10774}
}