address - match - abp - v2オープンソースモデル - 文と段落のマッピングを実現し、クラスタリングと意味検索に使用

ホーム

Address Match Abp V2

arinzeによって開発

これはsentence-transformersに基づくモデルで、文章や段落を64次元の密ベクトル空間にマッピングでき、クラスタリングや意味的検索などのタスクに適しています。

テキスト埋め込み

PyTorch

#住所マッチング #意味的類似度 #64次元ベクトル

ダウンロード数 87

リリース時間 : 11/21/2022

モデル概要

このモデルは主に住所テキストをベクトル表現に変換し、住所マッチングや類似度計算を行いやすくするために使用されます。

モデル特徴

密ベクトル表現

文章や段落を64次元の密ベクトル空間にマッピングする

効率的な類似度計算

住所マッチングなどのテキスト類似度を計算する必要があるタスクに適している

モデル能力

テキストベクトル化

文章類似度計算

住所マッチング

使用事例

住所処理

住所標準化

異なる形式の住所を統一された表現に変換する

住所マッチングの精度を向上させる

住所重複排除

類似する住所を識別して統合する

データの冗長性を減らす

🚀 arinze/address-match-abp-v2

このモデルはsentence-transformersをベースに構築されています。文章や段落を64次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに利用できます。

🚀 クイックスタート

sentence-transformersをインストールすると、このモデルを簡単に使用できます。

📦 インストール

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('arinze/address-match-abp-v2')
embeddings = model.encode(sentences)
print(embeddings)

📚 ドキュメント

評価結果

このモデルの自動評価については、Sentence Embeddings Benchmarkを参照してください: https://seb.sbert.net

学習

このモデルは以下のパラメータで学習されました。

DataLoader

sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader (長さ: 3125) で、以下のパラメータが使用されました。

{'batch_size': 32}

Loss

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss で、以下のパラメータが使用されました。

{'scale': 20.0, 'similarity_fct': 'cos_sim'}

fit() メソッドのパラメータ

{
    "epochs": 4,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 157,
    "weight_decay": 0.01
}

モデルの全アーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 64, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Dense({'in_features': 384, 'out_features': 64, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
)