ag - nli - bert - mpnet - base - uncased - sentence - similarity - v1オープンソースモデル

ホーム

Ag Nli Bert Mpnet Base Uncased Sentence Similarity V1

abbasgolestaniによって開発

これはsentence-transformersベースのモデルで、文や段落を768次元の密なベクトル空間にマッピングでき、クラスタリングや意味検索などのタスクに適しています。

テキスト埋め込み

Transformers

その他#文類似度計算 #意味検索最適化 #大文字小文字を区別しない

ダウンロード数 18

リリース時間 : 9/21/2023

モデル概要

このモデルはRoBERTaとMPNetアーキテクチャに基づいており、文類似度計算と自然言語推論タスクに特化しています。

モデル特徴

高精度文埋め込み

高品質な768次元の文埋め込みベクトルを生成でき、意味情報を正確に捕捉します

マルチタスクサポート

文類似度計算と自然言語推論タスクを同時にサポートします

大文字小文字を区別しない

モデルはテキストの大文字小文字に敏感ではなく、異なる形式のテキスト処理の堅牢性を向上させます

モデル能力

文ベクトル化

意味類似度計算

テキストクラスタリング

情報検索

自然言語推論

使用事例

情報検索

ドキュメント類似性検索

大規模なドキュメントライブラリで意味的に類似したドキュメントを検索

検索の関連性と精度を向上

カスタマーサービス

自動質問回答マッチング

顧客の質問をナレッジベースの回答とマッチング

カスタマーサービスの効率を向上

コンテンツ管理

重複コンテンツ検出

ウェブサイトやドキュメント内の重複または高度に類似したコンテンツを識別

コンテンツ戦略の最適化に役立つ

🚀 BERT/MPnetベースモデル (uncased)

このモデルはsentence-transformersを使用したもので、文章や段落を768次元の密ベクトル空間にマッピングします。クラスタリングや意味検索などのタスクに利用できます。

🚀 クイックスタート

✨ 主な機能

文章や段落を768次元の密ベクトル空間にマッピングする。
クラスタリングや意味検索などのタスクに利用可能。

📦 インストール

sentence-transformersをインストールすることで、このモデルを簡単に使用できます。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('abbasgolestani/ag-nli-bert-mpnet-base-uncased-sentence-similarity-v1') nli-mpnet-base-v2

# 2つの文章リスト
sentences1 = ['I am honored to be given the opportunity to help make our company better',
             'I love my job and what I do here',
             'I am excited about our company’s vision']

sentences2 = ['I am hopeful about the future of our company',
              'My work is aligning with my passion',
              'Definitely our company vision will be the next breakthrough to change the world and I’m so happy and proud to work here']

# 両方のリストの埋め込みを計算
embeddings1 = model.encode(sentences1, convert_to_tensor=True)
embeddings2 = model.encode(sentences2, convert_to_tensor=True)

# コサイン類似度を計算
cosine_scores = util.cos_sim(embeddings1, embeddings2)

# 文章ペアとそのスコアを出力
for i in range(len(sentences1)):
    print("{} \t\t {} \t\t Score: {:.4f}".format(sentences1[i], sentences2[i], cosine_scores[i][i]))

高度な使用法

sentence-transformersを使用せずに、このモデルを使用することもできます。まず、入力をTransformerモデルに通し、次に文脈化された単語埋め込みに対して適切なプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch

# 平均プーリング - 正しい平均化のためにアテンションマスクを考慮する
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # モデル出力の最初の要素にはすべてのトークン埋め込みが含まれている
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# 文章埋め込みを取得したい文章
sentences = ['This is an example sentence', 'Each sentence is converted']

# HuggingFace Hubからモデルをロード
tokenizer = AutoTokenizer.from_pretrained('abbasgolestani/ag-nli-bert-mpnet-base-uncased-sentence-similarity-v1')
model = AutoModel.from_pretrained('abbasgolestani/ag-nli-bert-mpnet-base-uncased-sentence-similarity-v1')

# 文章をトークナイズ
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# トークン埋め込みを計算
with torch.no_grad():
    model_output = model(**encoded_input)

# プーリングを実行。この場合は平均プーリング。
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 ドキュメント

評価結果

このモデルは、1000の文章ペアを含むローカルデータセットで評価されています。このアルゴリズムは、このデータセットで82％の精度を達成しています。

学習

このモデルは以下のパラメータで学習されました。

DataLoader: torch.utils.data.dataloader.DataLoader (長さ7) で、以下のパラメータが使用されました。

{'batch_size': 16, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Loss: sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

fit()メソッドのパラメータ:

{
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 100,
    "weight_decay": 0.01
}

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 75, 'do_lower_case': False}) with Transformer model: MPNetModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)