lt-wikidata-comp-enオープンソースモデル - クラスタリング、重複削除、リンクをサポートするエンティティマッチングの神器

ホーム

Lt Wikidata Comp En

dell-research-harvardによって開発

これは文変換器フレームワークに基づくLinkTransformerモデルで、レコードリンク(エンティティマッチング)タスク向けに設計されており、クラスタリング、重複排除、リンクなどの操作をサポートします。

テキスト埋め込み

Safetensors

英語#企業名マッチング #多言語エンティティリンク #高次元意味ベクトル

ダウンロード数 272

リリース時間 : 8/11/2023

モデル概要

このモデルは文と段落を768次元の密なベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。multi-qa-mpnet-base-dot-v1モデルをウィキデータの企業別名データセットでファインチューニングして完成しました。

モデル特徴

効率的なレコードリンク

エンティティマッチングタスク向けに最適化されており、迅速な企業名マッチングとリンクをサポート

多機能アプリケーション

レコードリンク以外にも、クラスタリング、重複排除、意味検索など様々なNLPタスクに使用可能

簡単で使いやすい

LinkTransformerパッケージを通じて簡潔なAPIを提供し、迅速な展開とアプリケーションを実現

モデル能力

文類似度計算

エンティティマッチング

テキストクラスタリング

意味検索

データ重複排除

使用事例

企業データ管理

企業名マッチング

異なるデータソースにおける同一企業の異なる名称バリエーションをマッチング

企業データ統合効率の向上

データクリーニング

データ重複排除

データセット内の重複レコードを識別して統合

データ品質の向上

🚀 {MODEL_NAME}

このモデルは、LinkTransformer モデルです。基本的には、sentence-transformers モデルをラップした文埋め込みモデルです。 LinkTransformerパッケージを通じて、迅速かつ簡単なレコードリンケージ（エンティティマッチング）を行うように設計されています。クラスタリング、重複排除、リンケージ、集約などのタスクに対応しています。その上で、sentence-transformersフレームワーク内の任意の文類似度タスクにも使用できます。文や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに利用できます。このモデルをアプリケーションでサポートしている以上の用途に使用する場合は、sentence-transformers のドキュメントを参照してください。

このモデルは、multi-qa-mpnet-base-dot-v1モデルをファインチューニングしたものです。英語（en）で事前学習されています。

このモデルは、LinkTransformerフレームワークを使用して、Wikiデータからの企業別名を含むデータセットで学習されました。リポジトリ内のLinkTransformer設定ファイル（LT_training_config.json）に記載されている他のデフォルト設定を使用して、100エポックで学習されました。

🚀 クイックスタート

✨ 主な機能

迅速かつ簡単なレコードリンケージ（エンティティマッチング）を行うことができます。
クラスタリング、重複排除、リンケージ、集約などのタスクに対応しています。
sentence-transformersフレームワーク内の任意の文類似度タスクにも使用できます。
文や段落を768次元の密ベクトル空間にマッピングします。

📦 インストール

LinkTransformer をインストールすると、このモデルを簡単に使用できます。

pip install -U linktransformer

💻 使用例

基本的な使用法

import linktransformer as lt
import pandas as pd

##Load the two dataframes that you want to link. For example, 2 dataframes with company names that are written differently
df1=pd.read_csv("data/df1.csv") ###This is the left dataframe with key CompanyName for instance
df2=pd.read_csv("data/df2.csv") ###This is the right dataframe with key CompanyName for instance

###Merge the two dataframes on the key column!
df_merged = lt.merge(df1, df2, on="CompanyName", how="inner")

##Done! The merged dataframe has a column called "score" that contains the similarity score between the two company names

📚 ドキュメント

独自のLinkTransformerモデルの学習

任意のSentence Transformersをバックボーンとして使用できます。ただし、プーリング層を追加する必要があります。HuggingFace上の他の任意のトランスフォーマーも、add_pooling_layer==Trueオプションを指定することで使用できます。このモデルは、SupCon損失を使用して学習されました。使用方法はパッケージのドキュメントに記載されています。学習設定は、リポジトリ内のLT_training_config.jsonファイルに記載されています。学習を再現するには、このファイルをダウンロードし、学習関数のconfig_path引数にパスを指定します。また、training_args引数を指定することで、設定を上書きすることもできます。

##Consider the example in the paper that has a dataset of Mexican products and their tariff codes from 1947 and 1948 and we want train a model to link the two tariff codes.
saved_model_path = train_model(
        model_path="hiiamsid/sentence_similarity_spanish_es",
        dataset_path=dataset_path,
        left_col_names=["description47"],
        right_col_names=['description48'],
        left_id_name=['tariffcode47'],
        right_id_name=['tariffcode48'],
        log_wandb=False,
        config_path=LINKAGE_CONFIG_PATH,
        training_args={"num_epochs": 1}
    )

このパッケージは、重複排除（指定されたキー列でデータフレームをクラスタリング）にも使用できます。細分類（製品など）を大分類（HSコードなど）にマージすることも可能です。詳細は、論文とドキュメントを参照してください。

🔧 技術詳細

評価結果

LinkTransformer パッケージの推論関数を使用して、このモデルを評価できます。パッケージ内にいくつかのデータセットを用意しているので、試してみてください。将来的には、Huggingfaceや当社のウェブサイトにより多くのデータセットを公開する予定です。

学習

このモデルは、以下のパラメータで学習されました。

DataLoader:

{'batch_size': 64, 'sampler': 'torch.utils.data.dataloader._InfiniteConstantSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Loss:

linktransformer.modified_sbert.losses.SupConLoss_wandb

fit()メソッドのパラメータ:

{
    "epochs": 100,
    "evaluation_steps": 1044,
    "evaluator": "sentence_transformers.evaluation.SequentialEvaluator.SequentialEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 208700,
    "weight_decay": 0.01
}

LinkTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: MPNetModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False})
)

📄 ライセンス

@misc{arora2023linktransformer,
                  title={LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models},
                  author={Abhishek Arora and Melissa Dell},
                  year={2023},
                  eprint={2309.00789},
                  archivePrefix={arXiv},
                  primaryClass={cs.CL}
                }