🚀 FLODA:针对深度伪造评估优化的Florence - 2模型
FLODA(针对深度伪造评估优化的Florence - 2模型)是一款先进的深度伪造检测模型,借助视觉 - 语言模型(VLMs)的强大能力,将图像字幕生成和真实性评估集成到一个端到端的架构中,旨在超越现有的深度伪造检测模型。
🚀 快速开始
from transformers import AutoProcessor, AutoModelForCausalLM
from PIL import Image
import torch
model_path = "path/to/floda/model"
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).to("cuda").eval()
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
def detect_deepfake(image_path):
image = Image.open(image_path).convert("RGB")
task_prompt = "<DEEPFAKE_DETECTION>"
text_input = "Is this photo real?"
inputs = processor(text=task_prompt + text_input, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
generated_ids = model.generate(
input_ids=inputs["input_ids"],
pixel_values=inputs["pixel_values"],
max_new_tokens=1024,
num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
result = processor.post_process_generation(generated_text, task=task_prompt, image_size=(image.width, image.height))[task_prompt]
return "Real" if result.lower() == "yes" else "Fake"
result = detect_deepfake("path/to/image.jpg")
print(f"The image is: {result}")
✨ 主要特性
- 利用Florence - 2作为基础视觉 - 语言模型,用于字幕生成和深度伪造检测。
- 将深度伪造检测重新定义为视觉问答(VQA)任务。
- 结合图像字幕信息,增强上下文理解。
- 采用rsLoRA(秩稳定低秩自适应)进行高效微调。
- 在不同场景下表现出强大的泛化能力。
- 对对抗攻击具有鲁棒性。
🔧 技术细节
模型架构
FLODA基于Florence - 2模型,主要由两个组件组成:
- 视觉编码器:使用DaViT(双注意力视觉变换器)。
- 多模态编码器 - 解码器:基于标准的变换器架构。
该模型使用rsLoRA进行微调,配置如下:
- 秩(r):8
- 阿尔法(α):8
- 丢弃率:0.05
- 目标模块:q_proj、k_proj、v_proj、out_proj、lm_head
性能
FLODA在深度伪造检测方面达到了最先进的性能:
- 所有数据集的平均准确率:97.14%。
- 在真实和伪造图像数据集上均表现出色。
- 在多个伪造数据集和所有受攻击数据集上达到100%的准确率。
📚 详细文档
训练数据
FLODA在包含以下内容的数据集上进行训练:
- 真实图像:MS COCO。
- 伪造图像:由SD2和LaMa生成。
评估数据
该模型在16个数据集上进行评估:
- 2个真实图像数据集:MS COCO、Flickr30k。
- 14个由各种模型(如SD2、SDXL、DeepFloyd IF、DALLE - 2、SGXL)生成的伪造图像数据集。
- 包括具有风格化图像、图像修复、分辨率变化和人脸交换的数据集。
- 对抗、后门和数据投毒攻击数据集。
局限性
- 在ControlNet数据集上的性能(准确率77.07%)低于一些竞争模型。
- 该模型对训练或评估数据集中未包含的最新或未来AI生成图像技术的有效性不确定。
伦理考量
虽然FLODA在深度伪造检测方面显示出有希望的结果,但需要考虑以下几点:
- 可能出现误报或漏报,根据使用场景可能会产生重大影响。
- 随着新的图像生成技术出现,需要不断更新。
- 处理用户提交的图像时的隐私考量。
模型卡片作者(可选)
- Youngho Bae(汉阳大学)
- Gunhui Han(延世大学)
- Seunghyeon Park(延世大学)
模型卡片联系方式
如有关于此模型卡片或FLODA模型的询问,请联系:
Youngho Bae
邮箱:byh711@gmail.com
框架版本
📄 许可证
本模型采用Apache - 2.0许可证。
模型信息表格
属性 |
详情 |
基础模型 |
microsoft/Florence - 2 - base - ft |
库名称 |
peft |
许可证 |
apache - 2.0 |
语言 |
英语 |
任务类型 |
视觉问答 |
评估指标 |
准确率 |
标签 |
深度伪造检测 |