tofu_ft_phi-1.5开源模型 - 解决隐私难题，高效遗忘特定训练数据！

首页

Tofu Ft Phi 1.5

由 locuslab 开发

该模型是在TOFU（虚构遗忘任务）数据集上微调的Phi-1.5模型，专注于从训练数据中遗忘特定数据点的能力，解决隐私和数据敏感性问题。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #数据遗忘 #隐私合规 #虚构作者QA

下载量 1,001

发布时间 : 1/31/2024

模型简介

该模型使研究人员能够研究从模型训练数据中遗忘特定数据点的能力，适用于隐私保护、数据敏感性和法规合规相关的研究。

模型特点

选择性数据遗忘

模型能够从训练数据中遗忘特定数据点，适用于隐私保护和数据敏感性研究。

基于TOFU数据集微调

使用TOFU数据集进行微调，该数据集包含200位虚构作者自传生成的问答对，全部由GPT-4模型生成。

保持无关任务性能

在遗忘特定知识片段的同时，模型能够保持其他无关任务的性能。

模型能力

文本生成

选择性数据遗忘

问答对任务处理

使用案例

隐私保护的机器学习

数据隐私研究

研究如何从模型中遗忘敏感数据，以保护用户隐私。

AI法规合规

法规合规研究

探索AI系统如何满足数据保护法规的要求。

知识保留与遗忘动力学

知识动力学研究

研究AI系统中知识保留与遗忘的动力学。

🚀 Phi-1.5在TOFU数据集上的微调模型

本项目是基于TOFU（虚构遗忘任务）数据集对Phi-1.5模型进行微调的成果。该模型使研究人员能够聚焦于从模型训练数据中遗忘特定数据点的能力，从而解决与隐私、数据敏感性和监管合规性相关的问题。

🚀 快速开始

安装

确保你已安装Python 3.10及以上版本，然后安装所需的包：

pip install transformers
pip install datasets

加载模型

你可以使用Transformers库加载模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "locuslab/tofu_ft_phi-1.5"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

使用示例

inputs = tokenizer.encode("Your prompt here", return_tensors='pt')
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

专注遗忘能力：Phi-1.5在完整的TOFU数据集上进行微调，专门用于遗忘遗忘集中不同比例的数据，提升了模型在不影响无关任务整体性能的情况下丢弃特定知识片段的能力。
广泛适用性：微调后的模型适用于多种研究应用，包括隐私保护机器学习、人工智能监管合规以及探索人工智能系统中知识保留和遗忘的动态。

📦 安装指南

确保你已安装Python 3.10+，然后运行以下命令安装所需的包：

pip install transformers
pip install datasets

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "locuslab/tofu_ft_phi-1.5"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

inputs = tokenizer.encode("Your prompt here", return_tensors='pt')
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📚 详细文档

快速链接

官网：TOFU的主页
arXiv论文：关于TOFU数据集及其在遗忘任务中的重要性的详细信息
GitHub仓库：获取TOFU数据集的源代码、微调脚本和其他资源
Hugging Face上的数据集：直接下载TOFU数据集的链接
Hugging Face Spaces上的排行榜：TOFU数据集挑战的当前排名和提交情况
Twitter上的总结：项目的简洁总结和关键要点

概述

TOFU数据集是一个专门设计的新型基准，用于评估大型语言模型（LLM）在现实任务中的遗忘性能。它由基于200位虚构作者自传的问答对组成，完全由GPT - 4模型生成。该数据集为像Llama2 - 7B - Chat/Phi - 1.5这样的聊天模型提供了展示其选择性数据遗忘能力的独特机会。

模型描述

Phi - 1.5已在完整的TOFU数据集上进行微调，以专注于遗忘遗忘集中不同比例的数据。这个过程增强了模型丢弃特定知识片段的能力，同时不影响其在无关任务上的整体性能。此版本的Phi - 1.5专为数据隐私和机器遗忘研究而设计。

适用性

微调后的模型适用于广泛的研究应用，包括但不限于：

隐私保护机器学习
人工智能监管合规
探索人工智能系统中知识保留和遗忘的动态

技术规格

属性	详情
基础模型	Phi - 1.5（来自微软）
数据集	TOFU（完整）
微调方法	针对问答对进行特定任务的微调以提高遗忘性能
兼容框架	支持Phi模型的框架均可使用该模型

代码库

训练模型的代码和所有微调模型的可用性可在我们的GitHub仓库中找到。

引用我们的工作

如果你发现我们的代码库和数据集有用，请引用我们的工作：

@misc{tofu2024,
      title={TOFU: A Task of Fictitious Unlearning for LLMs}, 
      author={Pratyush Maini and Zhili Feng and Avi Schwarzschild and Zachary C. Lipton and J. Zico Kolter},
      year={2024},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}