contra-bottleneck-t5-xl-wikipedia开源模型 - 免费实现文本编码、重构及语义编辑插值

首页

Contra Bottleneck T5 Xl Wikipedia

由 thesephist 开发

瓶颈T5模型是一个文本自动编码器，能够将文本编码为嵌入向量并重构原始文本，支持语义编辑和插值操作。

文本嵌入

Transformers

英语开源协议:MIT #文本自动编码 #潜在空间编辑 #语义插值

下载量 95

发布时间 : 9/30/2023

模型简介

该模型是一个基于T5的文本自动编码器，专门设计用于将文本编码为嵌入向量并从中重构文本。其生成的嵌入空间支持语义编辑和文本插值，适用于百科全书类文本的处理。

模型特点

文本自动编码

能够将最多512个标记的文本编码为嵌入向量，并从中重构原始文本。

语义编辑

通过在潜在空间中进行向量运算，实现对文本的语义编辑（如长度、语气、结构或主题）。

文本插值

支持在文本片段之间进行语义插值，生成过渡文本。

归一化嵌入

生成的嵌入向量始终归一化为长度1，便于向量运算和比较。

模型能力

文本编码

文本重构

语义编辑

文本插值

使用案例

文本处理

文本语义编辑

通过修改潜在空间中的嵌入向量，实现对文本语气、长度等属性的编辑。

可生成语义相似但属性不同的文本变体。

文本插值

在两个文本之间进行语义插值，生成过渡文本。

可生成连贯的中间文本，展示语义渐变过程。

潜在空间探索

潜在空间分析

分析文本在潜在空间中的分布和结构。

帮助理解模型如何组织和表示文本语义。

🚀 瓶颈T5模型 ⏳

瓶颈T5模型为我许多探索潜在空间中检查和编辑文本接口的实验与演示提供了支持。该模型是一个文本自动编码器，能够将长达512个标记的文本编码为嵌入向量，然后从该嵌入向量中重建原始文本。该模型生成的嵌入空间结构还允许通过潜在空间中的向量运算对文本进行语义编辑。

🚀 快速开始

本模型当前处于基于T5语言模型实现的原型阶段，因此我们需要围绕它创建一个小包装类，以便用于文本嵌入和生成：

import os
import torch
import torch.nn as nn
import torch.nn.functional as F

from tqdm import tqdm
from transformers import AutoTokenizer, AutoModelForCausalLM

class BottleneckT5Autoencoder:
    def __init__(self, model_path: str, device='cpu'):
        self.device = device
        self.tokenizer = AutoTokenizer.from_pretrained(model_path, model_max_length=512)
        self.model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).to(self.device)
        self.model.eval()

    @torch.no_grad()
    def embed(self, text: str) -> torch.FloatTensor:
        inputs = self.tokenizer(text, return_tensors='pt').to(self.device)
        decoder_inputs = self.tokenizer('', return_tensors='pt').to(self.device)
        return self.model(
            **inputs,
            decoder_input_ids=decoder_inputs['input_ids'],
            encode_only=True,
        )[0]

    @torch.no_grad()
    def generate_from_latent(self, latent: torch.FloatTensor, max_length=512, temperature=1.0) -> str:
        dummy_text = '.'
        dummy = self.embed(dummy_text)
        perturb_vector = latent - dummy
        self.model.perturb_vector = perturb_vector
        input_ids = self.tokenizer(dummy_text, return_tensors='pt').to(self.device).input_ids
        output = self.model.generate(
            input_ids=input_ids,
            max_length=max_length,
            do_sample=True,
            temperature=temperature,
            top_p=0.9,
            num_return_sequences=1,
        )
        return self.tokenizer.decode(output[0], skip_special_tokens=True)

然后，我们可以基于模型类初始化这个自动编码器类：

device = 'cuda' if torch.cuda.is_available() else 'cpu'
autoencoder = BottleneckT5Autoencoder(model_path='thesephist/contra-bottleneck-t5-large-wikipedia', device=device)

使用 .embed(text: str) 和 .generate_from_latent(embedding: torch.FloatTensor) 对文本进行嵌入和反嵌入操作：

texts = [
    'The quick brown fox jumps over the lazy dog',
    'Hi there! My name is Linus, and I spend a lot of my time thinking about latent spaces of neural network models.',
    'Notion is a single space where you can think, write, and plan. Capture thoughts, manage projects, or even run an entire company — and do it exactly the way you want.',
]

for t in texts:
    embedding = autoencoder.embed(t)
    reconstruction = autoencoder.generate_from_latent(embedding)
    print(reconstruction)

上述代码将输出以下文本：

The quick brown fox jumps over the lazy dog
I'm named after Linus, and I spend a lot of my time thinking about neural networks of latent space models.
Notion is a single place where you can think, plan, and spend time. Capture ideas, manage projects, and even do your own writing — or plan it exactly the way you want.

有关如何使用该模型通过Contra进行插值和语义编辑的更多示例，请参阅此Google Colab笔记本。

✨ 主要特性

语义编辑：利用该模型生成的嵌入向量，我们可以在文本片段之间进行语义插值，并根据句子的潜在属性（如长度、语气、结构或主题）对其进行编辑。
归一化处理：瓶颈T5嵌入向量始终被归一化为长度为1，编码器生成的嵌入向量长度为1，解码器的任何输入也将被归一化为长度为1。

📚 详细文档

模型详情

使用该模型生成的嵌入向量，我们可以在文本片段之间进行语义插值，并根据句子的潜在属性（如长度、语气、结构或主题）对其进行编辑。

所有瓶颈T5模型均在经过筛选的英文维基百科子集上进行训练，在对百科全书及其他类似类型的文本进行编码和解码时表现最佳。技术含量高、对话式或其他非常规的文本可能超出了模型的分布范围，模型在处理此类输入时可能表现不佳。

瓶颈T5嵌入向量始终被归一化为长度为1，编码器生成的嵌入向量长度为1，解码器的任何输入也将被归一化为长度为1。

属性	详情
开发者	Linus Lee
模型类型	具有注意力池化瓶颈和门控交叉注意力的T5风格编码器 - 解码器Transformer
语言（NLP）	英语
许可证	MIT
微调基础模型	适应语言模型的T5 v1.1