distilbert-base-turkish-cased-clip开源模型 - 适配图像编码器的土耳其语文本编码工具

首页

Distilbert Base Turkish Cased Clip

由 mys 开发

基于dbmdz/distilbert-base-turkish-cased微调的土耳其语文本编码器，用于与CLIP的ViT-B/32图像编码器配合使用

文本生成图像

Transformers

#土耳其语CLIP #多模态对齐 #文本编码器

下载量 2,354

发布时间 : 3/2/2022

模型简介

该模型是一个针对土耳其语优化的文本编码器，专门设计用于与CLIP模型的图像编码器配合，实现跨模态的文本-图像匹配任务。

模型特点

土耳其语优化

专门针对土耳其语文本进行微调优化

CLIP兼容

设计用于与CLIP的ViT-B/32图像编码器配合使用

轻量级架构

基于DistilBERT，在保持性能的同时减少模型大小

模型能力

土耳其语文本编码

跨模态文本-图像匹配

多模态表示学习

使用案例

跨模态检索

土耳其语图像搜索

使用土耳其语文本查询搜索相关图像

内容推荐

土耳其语内容推荐

基于文本描述推荐相关视觉内容

🚀 土耳其语文本编码器模型

本项目是一个微调后的模型，基于 dbmdz/distilbert-base-turkish-cased 进行微调，可作为土耳其语文本编码器，与 CLIP 的 ViT - B/32 图像编码器配合使用。

🚀 快速开始

本模型是 dbmdz/distilbert-base-turkish-cased 的微调版本，可作为土耳其语的文本编码器，与 CLIP 的 ViT-B/32 图像编码器配合使用。它需要与 [我在 GitHub 上的配套仓库] 中的 clip_head.h5 一起使用。前往该仓库可获取完整的工作示例，以下是一个简单的使用示例：

from transformers import AutoTokenizer, TFAutoModel
import tensorflow as tf
import numpy as np
from PIL import Image
import torch
import clip

model_name = "mys/distilbert-base-turkish-cased-clip"
base_model = TFAutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
head_model = tf.keras.models.load_model("./clip_head.h5")

def encode_text(base_model, tokenizer, head_model, texts):
    tokens = tokenizer(texts, padding=True, return_tensors='tf')
    embs = base_model(**tokens)[0]

    attention_masks = tf.cast(tokens['attention_mask'], tf.float32)
    sample_length = tf.reduce_sum(attention_masks, axis=-1, keepdims=True)
    masked_embs = embs * tf.expand_dims(attention_masks, axis=-1)
    base_embs = tf.reduce_sum(masked_embs, axis=1) / tf.cast(sample_length, tf.float32)
    clip_embs = head_model(base_embs)
    clip_embs /= tf.norm(clip_embs, axis=-1, keepdims=True)
    return clip_embs

demo_images = {
    "bilgisayarda çalışan bir insan": "myspc.jpeg",
    "sahilde bir insan ve bir heykel": "mysdk.jpeg"
    }

clip_model, preprocess = clip.load("ViT-B/32")
images = {key: Image.open(f"images/{value}") for key, value in demo_images.items()}
img_inputs = torch.stack([preprocess(image).to('cpu') for image in images.values()])

with torch.no_grad():
    image_embs = clip_model.encode_image(img_inputs).float().to('cpu')

image_embs /= image_embs.norm(dim=-1, keepdim=True)
image_embs = image_embs.detach().numpy()
text_embs = encode_text(base_model, tokenizer, head_model, list(images.keys())).numpy()
similarities = image_embs @ text_embs.T
logits = tf.nn.softmax(tf.convert_to_tensor(similarities)).numpy()
idxs = np.argmax(logits, axis=-1).tolist()
for i, (key, value) in enumerate(demo_images.items()):
    print("path: ", value, "true label: ", key, "prediction: ", list(demo_images.keys())[idxs[i]], "score: ", logits[i, idxs[i]])

上述代码片段中引用的示例图像可以在 GitHub 仓库的 images 目录下找到。

💻 使用示例

基础用法

from transformers import AutoTokenizer, TFAutoModel
import tensorflow as tf
import numpy as np
from PIL import Image
import torch
import clip

model_name = "mys/distilbert-base-turkish-cased-clip"
base_model = TFAutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
head_model = tf.keras.models.load_model("./clip_head.h5")

def encode_text(base_model, tokenizer, head_model, texts):
    tokens = tokenizer(texts, padding=True, return_tensors='tf')
    embs = base_model(**tokens)[0]

    attention_masks = tf.cast(tokens['attention_mask'], tf.float32)
    sample_length = tf.reduce_sum(attention_masks, axis=-1, keepdims=True)
    masked_embs = embs * tf.expand_dims(attention_masks, axis=-1)
    base_embs = tf.reduce_sum(masked_embs, axis=1) / tf.cast(sample_length, tf.float32)
    clip_embs = head_model(base_embs)
    clip_embs /= tf.norm(clip_embs, axis=-1, keepdims=True)
    return clip_embs

demo_images = {
    "bilgisayarda çalışan bir insan": "myspc.jpeg",
    "sahilde bir insan ve bir heykel": "mysdk.jpeg"
    }

clip_model, preprocess = clip.load("ViT-B/32")
images = {key: Image.open(f"images/{value}") for key, value in demo_images.items()}
img_inputs = torch.stack([preprocess(image).to('cpu') for image in images.values()])

with torch.no_grad():
    image_embs = clip_model.encode_image(img_inputs).float().to('cpu')

image_embs /= image_embs.norm(dim=-1, keepdim=True)
image_embs = image_embs.detach().numpy()
text_embs = encode_text(base_model, tokenizer, head_model, list(images.keys())).numpy()
similarities = image_embs @ text_embs.T
logits = tf.nn.softmax(tf.convert_to_tensor(similarities)).numpy()
idxs = np.argmax(logits, axis=-1).tolist()
for i, (key, value) in enumerate(demo_images.items()):
    print("path: ", value, "true label: ", key, "prediction: ", list(demo_images.keys())[idxs[i]], "score: ", logits[i, idxs[i]])

🔧 技术细节

encode_text() 函数聚合了 Distilbert 模型输出的每个标记的隐藏状态，为每个序列生成一个单一向量。然后，clip_head.h5 模型通过一个全连接层将该向量投影到与 CLIP 的文本编码器相同的向量空间中。首先，冻结所有 Distilbert 层，并对头部全连接层进行几个 epoch 的训练。然后，解除冻结，将全连接层与 Distilbert 层一起再训练几个 epoch。我通过将 COCO 字幕机器翻译成土耳其语来创建数据集。在训练期间，使用原始 CLIP 文本编码器输出的英语字幕的向量表示作为目标值，并最小化这些向量与 clip_head.h5 输出之间的均方误差（MSE）。