contra-bottleneck-t5-base-wikipedia开源文本处理模型

首页

Contra Bottleneck T5 Base Wikipedia

由 thesephist 开发

基于T5架构的文本自编码器，可将文本编码为嵌入向量并重构，支持潜在空间语义编辑

大型语言模型

Transformers

英语开源协议:MIT #文本自编码 #潜在空间编辑 #语义插值

下载量 143

发布时间 : 9/30/2023

模型简介

该模型是一个文本自编码器，能够将最多512个标记的文本编码为嵌入向量，并从中重构原始文本。生成的嵌入空间结构允许通过向量运算对文本进行语义编辑。

模型特点

潜在空间语义编辑

支持通过嵌入向量运算实现文本语义属性（如长度、语气、主题）的编辑

归一化嵌入空间

所有嵌入向量自动归一化为单位长度，便于向量运算和比较

百科全书优化

专门在维基百科数据上训练，最适合处理百科全书类文本

模型能力

文本编码为嵌入向量

从嵌入向量重构文本

文本语义插值

潜在空间文本编辑

使用案例

文本处理

文本风格转换

通过潜在空间向量运算修改文本语气或风格

可将正式文本转换为口语化表达，或调整文本情感倾向

文本摘要

通过潜在空间操作生成更简洁的文本版本

保持核心语义的同时缩短文本长度

语义分析

文本相似度计算

通过比较嵌入向量评估文本语义相似度

可用于文档检索或聚类分析

🚀 瓶颈T5模型 ⏳

瓶颈T5模型为我许多探索潜在空间中检查和编辑文本界面的实验和演示提供了支持。该模型是一个文本自动编码器，能够将最多512个标记的文本编码为一个嵌入向量，然后从该嵌入向量中重构原始文本。此模型生成的嵌入空间结构还允许通过潜在空间中的向量运算对文本进行语义编辑。

🚀 快速开始

模型初始化

import os
import torch
import torch.nn as nn
import torch.nn.functional as F

from tqdm import tqdm
from transformers import AutoTokenizer, AutoModelForCausalLM

class BottleneckT5Autoencoder:
    def __init__(self, model_path: str, device='cpu'):
        self.device = device
        self.tokenizer = AutoTokenizer.from_pretrained(model_path, model_max_length=512)
        self.model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).to(self.device)
        self.model.eval()

    @torch.no_grad()
    def embed(self, text: str) -> torch.FloatTensor:
        inputs = self.tokenizer(text, return_tensors='pt').to(self.device)
        decoder_inputs = self.tokenizer('', return_tensors='pt').to(self.device)
        return self.model(
            **inputs,
            decoder_input_ids=decoder_inputs['input_ids'],
            encode_only=True,
        )[0]

    @torch.no_grad()
    def generate_from_latent(self, latent: torch.FloatTensor, max_length=512, temperature=1.0) -> str:
        dummy_text = '.'
        dummy = self.embed(dummy_text)
        perturb_vector = latent - dummy
        self.model.perturb_vector = perturb_vector
        input_ids = self.tokenizer(dummy_text, return_tensors='pt').to(self.device).input_ids
        output = self.model.generate(
            input_ids=input_ids,
            max_length=max_length,
            do_sample=True,
            temperature=temperature,
            top_p=0.9,
            num_return_sequences=1,
        )
        return self.tokenizer.decode(output[0], skip_special_tokens=True)

device = 'cuda' if torch.cuda.is_available() else 'cpu'
autoencoder = BottleneckT5Autoencoder(model_path='thesephist/contra-bottleneck-t5-large-wikipedia', device=device)

文本编码与解码示例

texts = [
    'The quick brown fox jumps over the lazy dog',
    'Hi there! My name is Linus, and I spend a lot of my time thinking about latent spaces of neural network models.',
    'Notion is a single space where you can think, write, and plan. Capture thoughts, manage projects, or even run an entire company — and do it exactly the way you want.',
]

for t in texts:
    embedding = autoencoder.embed(t)
    reconstruction = autoencoder.generate_from_latent(embedding)
    print(reconstruction)

运行上述代码会输出以下文本：

The quick brown fox jumps over the lazy dog
I'm named after Linus, and I spend a lot of my time thinking about neural networks of latent space models.
Notion is a single place where you can think, plan, and spend time. Capture ideas, manage projects, and even do your own writing — or plan it exactly the way you want.

更多关于如何使用该模型进行插值和语义编辑的示例，请参考这个Google Colab笔记本。

✨ 主要特性

文本自动编码与解码：能够将最多512个标记的文本编码为嵌入向量，并从嵌入向量中重构原始文本。
潜在空间语义编辑：通过潜在空间中的向量运算对文本进行语义编辑，如语义插值、根据长度、语气、结构或主题等潜在属性编辑句子。

📦 安装指南

文档未提及安装步骤，可参考相关依赖库（如transformers、torch等）的官方安装指南进行安装。

💻 使用示例

基础用法

import os
import torch
import torch.nn as nn
import torch.nn.functional as F

from tqdm import tqdm
from transformers import AutoTokenizer, AutoModelForCausalLM

class BottleneckT5Autoencoder:
    def __init__(self, model_path: str, device='cpu'):
        self.device = device
        self.tokenizer = AutoTokenizer.from_pretrained(model_path, model_max_length=512)
        self.model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).to(self.device)
        self.model.eval()

    @torch.no_grad()
    def embed(self, text: str) -> torch.FloatTensor:
        inputs = self.tokenizer(text, return_tensors='pt').to(self.device)
        decoder_inputs = self.tokenizer('', return_tensors='pt').to(self.device)
        return self.model(
            **inputs,
            decoder_input_ids=decoder_inputs['input_ids'],
            encode_only=True,
        )[0]

    @torch.no_grad()
    def generate_from_latent(self, latent: torch.FloatTensor, max_length=512, temperature=1.0) -> str:
        dummy_text = '.'
        dummy = self.embed(dummy_text)
        perturb_vector = latent - dummy
        self.model.perturb_vector = perturb_vector
        input_ids = self.tokenizer(dummy_text, return_tensors='pt').to(self.device).input_ids
        output = self.model.generate(
            input_ids=input_ids,
            max_length=max_length,
            do_sample=True,
            temperature=temperature,
            top_p=0.9,
            num_return_sequences=1,
        )
        return self.tokenizer.decode(output[0], skip_special_tokens=True)

device = 'cuda' if torch.cuda.is_available() else 'cpu'
autoencoder = BottleneckT5Autoencoder(model_path='thesephist/contra-bottleneck-t5-large-wikipedia', device=device)

text = 'The quick brown fox jumps over the lazy dog'
embedding = autoencoder.embed(text)
reconstruction = autoencoder.generate_from_latent(embedding)
print(reconstruction)

高级用法

可参考这个Google Colab笔记本中的示例，使用该模型进行插值和语义编辑。

📚 详细文档

模型详情

使用该模型生成的嵌入向量，我们可以在文本片段之间进行语义插值，并利用句子的潜在属性（如长度、语气、结构或主题）对句子进行编辑。

所有瓶颈T5模型均在经过筛选的英文维基百科子集上进行训练，在编码和解码百科全书及其他类似类型的文本时表现最佳。技术含量高、对话式或其他非常规的文本可能超出了模型的分布范围，模型在处理此类输入时可能表现不佳。

瓶颈T5嵌入向量始终被归一化为长度为1；编码器生成的嵌入向量长度为1，解码器的任何输入也将被归一化为长度为1。

属性	详情
开发者	Linus Lee
模型类型	具有注意力池化瓶颈和门控交叉注意力的T5风格编码器 - 解码器变压器
语言（NLP）	英语
许可证	MIT
微调基础模型	经过语言模型适配的T5 v1.1