SciScore开源科学评分模型 - 免费评估隐含提示与生成图像科学对齐度

首页

Sciscore

由 Jialuo21 开发

SciScore是基于CLIP-H模型微调的科学评分模型，用于评估隐含提示与生成图像之间的科学对齐程度。

文本生成图像

Transformers

开源协议:Apache-2.0 #科学图像对齐评分 #CLIP-H微调模型 #隐含提示评估

下载量 1,627

发布时间 : 3/17/2025

模型简介

SciScore是一个视觉-语言模型，专门设计用于评估科学图像与其描述提示之间的对齐程度。它可以帮助识别和量化图像合成中的科学准确性。

模型特点

科学对齐评估

专门设计用于评估科学图像与其描述提示之间的对齐程度

高质量训练数据

使用Science-T2I数据集进行微调，专注于科学准确性

CLIP基础模型

基于强大的CLIP-ViT-H-14模型，具有良好的视觉-语言理解能力

模型能力

图像-文本对齐评分

科学准确性评估

多模态理解

使用案例

科学研究

科学图像生成评估

评估AI生成的科学图像是否准确反映了其描述的科学概念

可量化图像与科学描述之间的匹配程度

科学教育材料验证

验证教育材料中的图像是否准确传达了科学概念

帮助确保教育材料的科学准确性

AI生成内容

文本到图像模型评估

评估不同文本到图像模型生成科学图像的准确性

提供客观评分标准比较不同模型的科学表现

🚀 SciScore

SciScore是一个基于特定模型微调的工具，它以隐式提示和生成图像为输入，输出代表两者科学一致性的分数，有助于评估图像与科学描述的匹配程度。

🚀 快速开始

from transformers import AutoProcessor, AutoModel
from PIL import Image
import torch

device = "cuda"
processor_name_or_path = "Jialuo21/SciScore"
model_pretrained_name_or_path = "Jialuo21/SciScore"

processor = AutoProcessor.from_pretrained(processor_name_or_path)
model = AutoModel.from_pretrained(model_pretrained_name_or_path).eval().to(device)

def calc_probs(prompt, images):
    
    image_inputs = processor(
        images=images,
        padding=True,
        truncation=True,
        max_length=77,
        return_tensors="pt",
    ).to(device)
    
    text_inputs = processor(
        text=prompt,
        padding=True,
        truncation=True,
        max_length=77,
        return_tensors="pt",
    ).to(device)

    with torch.no_grad():
        image_embs = model.get_image_features(**image_inputs)
        image_embs = image_embs / torch.norm(image_embs, dim=-1, keepdim=True)
    
        text_embs = model.get_text_features(**text_inputs)
        text_embs = text_embs / torch.norm(text_embs, dim=-1, keepdim=True)
    
        scores = model.logit_scale.exp() * (text_embs @ image_embs.T)[0]
        probs = torch.softmax(scores, dim=-1)
    return probs.cpu().tolist()

pil_images = [Image.open("./examples/camera_1.png"), Image.open("./examples/camera_2.png")]
prompt = "A camera screen without electricity sits beside the window, realistic."
print(calc_probs(prompt, pil_images))

✨ 主要特性

特性展示

SciScore在基础模型CLIP-H上进行微调，使用了Science-T2I数据集。它能够根据输入的隐式提示和生成图像，输出代表两者科学一致性的分数。

📚 详细文档

资源链接

引用信息

@misc{li2025sciencet2iaddressingscientificillusions,
  title={Science-T2I: Addressing Scientific Illusions in Image Synthesis}, 
  author={Jialuo Li and Wenhao Chai and Xingyu Fu and Haiyang Xu and Saining Xie},
  year={2025},
  eprint={2504.13129},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2504.13129}, 
}