🚀 FLODA:針對深度偽造評估優化的Florence - 2模型
FLODA(針對深度偽造評估優化的Florence - 2模型)是一款先進的深度偽造檢測模型,藉助視覺 - 語言模型(VLMs)的強大能力,將圖像字幕生成和真實性評估集成到一個端到端的架構中,旨在超越現有的深度偽造檢測模型。
🚀 快速開始
from transformers import AutoProcessor, AutoModelForCausalLM
from PIL import Image
import torch
model_path = "path/to/floda/model"
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).to("cuda").eval()
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
def detect_deepfake(image_path):
image = Image.open(image_path).convert("RGB")
task_prompt = "<DEEPFAKE_DETECTION>"
text_input = "Is this photo real?"
inputs = processor(text=task_prompt + text_input, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
generated_ids = model.generate(
input_ids=inputs["input_ids"],
pixel_values=inputs["pixel_values"],
max_new_tokens=1024,
num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
result = processor.post_process_generation(generated_text, task=task_prompt, image_size=(image.width, image.height))[task_prompt]
return "Real" if result.lower() == "yes" else "Fake"
result = detect_deepfake("path/to/image.jpg")
print(f"The image is: {result}")
✨ 主要特性
- 利用Florence - 2作為基礎視覺 - 語言模型,用於字幕生成和深度偽造檢測。
- 將深度偽造檢測重新定義為視覺問答(VQA)任務。
- 結合圖像字幕信息,增強上下文理解。
- 採用rsLoRA(秩穩定低秩自適應)進行高效微調。
- 在不同場景下表現出強大的泛化能力。
- 對對抗攻擊具有魯棒性。
🔧 技術細節
模型架構
FLODA基於Florence - 2模型,主要由兩個組件組成:
- 視覺編碼器:使用DaViT(雙注意力視覺變換器)。
- 多模態編碼器 - 解碼器:基於標準的變換器架構。
該模型使用rsLoRA進行微調,配置如下:
- 秩(r):8
- 阿爾法(α):8
- 丟棄率:0.05
- 目標模塊:q_proj、k_proj、v_proj、out_proj、lm_head
性能
FLODA在深度偽造檢測方面達到了最先進的性能:
- 所有數據集的平均準確率:97.14%。
- 在真實和偽造圖像數據集上均表現出色。
- 在多個偽造數據集和所有受攻擊數據集上達到100%的準確率。
📚 詳細文檔
訓練數據
FLODA在包含以下內容的數據集上進行訓練:
- 真實圖像:MS COCO。
- 偽造圖像:由SD2和LaMa生成。
評估數據
該模型在16個數據集上進行評估:
- 2個真實圖像數據集:MS COCO、Flickr30k。
- 14個由各種模型(如SD2、SDXL、DeepFloyd IF、DALLE - 2、SGXL)生成的偽造圖像數據集。
- 包括具有風格化圖像、圖像修復、分辨率變化和人臉交換的數據集。
- 對抗、後門和數據投毒攻擊數據集。
侷限性
- 在ControlNet數據集上的性能(準確率77.07%)低於一些競爭模型。
- 該模型對訓練或評估數據集中未包含的最新或未來AI生成圖像技術的有效性不確定。
倫理考量
雖然FLODA在深度偽造檢測方面顯示出有希望的結果,但需要考慮以下幾點:
- 可能出現誤報或漏報,根據使用場景可能會產生重大影響。
- 隨著新的圖像生成技術出現,需要不斷更新。
- 處理用戶提交的圖像時的隱私考量。
模型卡片作者(可選)
- Youngho Bae(漢陽大學)
- Gunhui Han(延世大學)
- Seunghyeon Park(延世大學)
模型卡片聯繫方式
如有關於此模型卡片或FLODA模型的詢問,請聯繫:
Youngho Bae
郵箱:byh711@gmail.com
框架版本
📄 許可證
本模型採用Apache - 2.0許可證。
模型信息表格
屬性 |
詳情 |
基礎模型 |
microsoft/Florence - 2 - base - ft |
庫名稱 |
peft |
許可證 |
apache - 2.0 |
語言 |
英語 |
任務類型 |
視覺問答 |
評估指標 |
準確率 |
標籤 |
深度偽造檢測 |