roberta-large-InBedderオープンソースのテキスト埋め込みツール - 指定されたテキストの特徴を正確に捉え、指示に従って回答

ホーム

Roberta Large InBedder

BrandonZYWによって開発

InBedderは命令に従うように設計されたテキスト埋め込みモデルで、質問に答える形でユーザーの命令が指定するテキスト特徴を捉えることができます。

テキスト埋め込み

Transformers

英語オープンソースライセンス:MIT #命令感知埋め込み #動的テキスト表現 #質問応答型エンコーディング

ダウンロード数 17

リリース時間 : 2/15/2024

モデル概要

InBedderは命令を入力テキストに関する質問と見なし、期待される回答をエンコードすることで表現を取得し、様々な評価タスクにおける命令を認識できます。

モデル特徴

命令追従能力

ユーザーが提供する命令を理解し実行し、命令に基づいて特定のテキスト特徴を抽出できる

質問応答型埋め込み

命令を問題に変換し、期待される回答をエンコードする方法でテキスト表現を取得する

マルチタスク適応性

異なる評価タスクにおける命令要求を認識し適応できる

モデル能力

命令感知型テキスト埋め込み

意味的類似度計算

感情分析

エンティティ認識

使用事例

意味分析

動物識別

テキスト中で言及されている動物を識別する

異なる動物に関連するテキストを正確に区別できる

感情分析

テキスト中で表現されている感情を識別する

異なる感情傾向のテキストを区別できる

🚀 [ACL2024] Answer is All You Need: Instruction-following Text Embedding via Answering the Question

InBedder🛌 は、指示に従うように設計されたテキスト埋め込みモデルです。指示に従うテキスト埋め込みモデルは、ユーザーの指示で指定されたテキストの特徴を捉えることができます。InBedderは、指示を入力テキストに関する質問として扱い、期待される回答をエンコードしてそれに応じた表現を得るという新しい視点を提供します。私たちは、InBedderがさまざまな評価タスクの指示に対応できることを示しています。

image/png

以下は、https://github.com/zhang-yu-wei/InBedder/blob/main/UseCase.ipynb からの使用例です。

🚀 クイックスタート

InBedderの基本的な使い方を説明します。

💻 使用例

基本的な使用法

import torch
from torch import nn
from torch.nn.functional import gelu, cosine_similarity
from transformers import AutoTokenizer, AutoModel, AutoModelForMaskedLM

import numpy as np

class InBedder():
    
    def __init__(self, path='KomeijiForce/inbedder-roberta-large', device='cuda:0'):
        
        model = AutoModelForMaskedLM.from_pretrained(path)
    
        self.tokenizer = AutoTokenizer.from_pretrained(path)
        self.model = model.roberta
        self.dense = model.lm_head.dense
        self.layer_norm = model.lm_head.layer_norm
        
        self.device = torch.device(device)
        self.model = self.model.to(self.device)
        self.dense = self.dense.to(self.device)
        self.layer_norm = self.layer_norm.to(self.device)
        
        self.vocab = self.tokenizer.get_vocab()
        self.vocab = {self.vocab[key]:key for key in self.vocab}
        
    def encode(self, input_texts, instruction, n_mask):
        
        if type(instruction) == str:
            prompts = [instruction + self.tokenizer.mask_token*n_mask for input_text in input_texts]
        elif type(instruction) == list:
            prompts = [inst + self.tokenizer.mask_token*n_mask for inst in instruction]
    
        inputs = self.tokenizer(input_texts, prompts, padding=True, truncation=True, return_tensors='pt').to(self.device)

        mask = inputs.input_ids.eq(self.tokenizer.mask_token_id)
        
        outputs = self.model(**inputs)

        logits = outputs.last_hidden_state[mask]
        
        logits = self.layer_norm(gelu(self.dense(logits)))
        
        logits = logits.reshape(len(input_texts), n_mask, -1)
        
        logits = logits.mean(1)
            
        logits = (logits - logits.mean(1, keepdim=True)) / logits.std(1, keepdim=True)
        
        return logits

inbedder = InBedder(path='KomeijiForce/inbedder-roberta-large', device='cpu')

texts = ["I love cat!", "I love dog!", "I dislike cat!"]
instruction = "What is the animal mentioned here?"
embeddings = inbedder.encode(texts, instruction, 3)

cosine_similarity(embeddings[:1], embeddings[1:], dim=1)
# tensor([0.9374, 0.9917], grad_fn=<SumBackward1>)

texts = ["I love cat!", "I love dog!", "I dislike cat!"]
instruction = "What is emotion expressed here?"
embeddings = inbedder.encode(texts, instruction, 3)

cosine_similarity(embeddings[:1], embeddings[1:], dim=1)
# tensor([0.9859, 0.8537], grad_fn=<SumBackward1>)