🚀 MiniCheck-Flan-T5-Large
MiniCheck-Flan-T5-Large 是一個用於事實核查的模型,它基於 Flan-T5-Large 架構,能夠對句子級別的陳述進行判斷,確定其是否有文檔支持。該模型在新收集的基準測試中表現出色,性能與 GPT-4 相當,但成本僅為其 1/400。
🚀 快速開始
你可以運行以下命令來安裝 MiniCheck 包 及其所有必要的依賴項:
pip install "minicheck @ git+https://github.com/Liyan06/MiniCheck.git@main"
✨ 主要特性
- 高效事實核查:能夠在句子級別對陳述進行快速準確的事實核查。
- 性能卓越:在新收集的基準測試中,大幅超越現有同規模的專業事實核查器,性能與 GPT-4 相當,但成本更低。
- 多模型變體:除了 MiniCheck-Flan-T5-Large,還有其他三種不同規模的模型變體可供選擇。
📦 安裝指南
請運行以下命令安裝 MiniCheck 包 和所有必要的依賴項:
pip install "minicheck @ git+https://github.com/Liyan06/MiniCheck.git@main"
💻 使用示例
基礎用法
from minicheck.minicheck import MiniCheck
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
doc = "A group of students gather in the school library to study for their upcoming final exams."
claim_1 = "The students are preparing for an examination."
claim_2 = "The students are on vacation."
scorer = MiniCheck(model_name='flan-t5-large', cache_dir='./ckpts')
pred_label, raw_prob, _, _ = scorer.score(docs=[doc, doc], claims=[claim_1, claim_2])
print(pred_label)
print(raw_prob)
高級用法
在我們的 LLM-AggreFact 基準測試上進行測試:
import pandas as pd
from datasets import load_dataset
from minicheck.minicheck import MiniCheck
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
df = pd.DataFrame(load_dataset("lytang/LLM-AggreFact")['test'])
docs = df.doc.values
claims = df.claim.values
scorer = MiniCheck(model_name='flan-t5-large', cache_dir='./ckpts')
pred_label, raw_prob, _, _ = scorer.score(docs=docs, claims=claims)
評估基準測試的結果:
from sklearn.metrics import balanced_accuracy_score
df['preds'] = pred_label
result_df = pd.DataFrame(columns=['Dataset', 'BAcc'])
for dataset in df.dataset.unique():
sub_df = df[df.dataset == dataset]
bacc = balanced_accuracy_score(sub_df.label, sub_df.preds) * 100
result_df.loc[len(result_df)] = [dataset, bacc]
result_df.loc[len(result_df)] = ['Average', result_df.BAcc.mean()]
result_df.round(1)
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
基於 Flan-T5-Large 的事實核查模型 |
訓練數據 |
由 21K ANLI 數據和 14K 結構化生成的合成數據組成 |
模型變體
我們還有其他三種 MiniCheck 模型變體:
模型性能
這些模型的性能在我們新收集的基準測試 LLM-AggreFact 上進行評估,該基準測試由 11 個最近的人工標註的事實核查和基於大語言模型生成的數據集組成。MiniCheck-Flan-T5-Large 大幅超越所有現有同規模的專業事實核查器(絕對提升 4 - 10%),性能與 GPT-4 相當,但成本僅為其 1/400。完整結果請參考我們的論文。
注意事項
我們僅在真實陳述上評估了模型的性能,沒有對模型生成的陳述進行任何形式的人工干預,例如注入特定的錯誤類型。那些經過編輯的陳述不能反映大語言模型的實際行為。
🔧 技術細節
該模型基於 Flan-T5-Large 架構,通過在 35K 數據的組合上進行微調得到。具體數據包括 21K ANLI 數據和 14K 結構化生成的合成數據。模型在句子級別進行預測,輸入為文檔和陳述,輸出為二進制標籤(1 表示支持,0 表示不支持)。
📄 許可證
本項目採用 MIT 許可證。
📖 引用
如果你使用了該模型,請引用以下論文:
@InProceedings{tang-etal-2024-minicheck,
title = {MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents},
author = {Liyan Tang and Philippe Laban and Greg Durrett},
booktitle = {Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing},
year = {2024},
publisher = {Association for Computational Linguistics},
url = {https://arxiv.org/pdf/2404.10774}
}