L

Longclip GmP ViT L 14

由 zer0int 开发
基于BeichenZhang/LongCLIP-L微调的CLIP模型,支持长文本输入(248词符),采用几何参数化(GmP)技术提升性能
下载量 4,859
发布时间 : 6/15/2024

模型简介

改进版CLIP模型,突破传统77词符限制,特别优化了长文本理解能力,可作为SDXL/Stable Diffusion等生成模型的文本编码器

模型特点

长文本支持
支持248词符输入(传统CLIP仅77词符),显著提升长文本描述的理解能力
几何参数化(GmP)
通过权重分解技术保持预训练知识的几何特性,提升微调稳定性
标签平滑损失
采用自定义损失函数,特别适合小批量/窄领域微调场景
生成模型兼容
可直接替换Stable Diffusion/Flux.1等生成模型的文本编码器

模型能力

长文本图像匹配
生成模型文本编码
跨模态检索
零样本分类

使用案例

AI生成内容
SDXL文本编码增强
作为Stable Diffusion XL的文本编码器,支持更详细的长文本提示
248词符输入的余弦相似度比77词符截断版本提升约29%
跨模态检索
电商产品搜索
根据详细产品描述匹配对应图像
在窄领域微调后ImageNet准确率达0.89
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase