DeCLUTR-smallオープンソース文章エンコーダーモデル - 高品質な文章埋め込み表現を無料で生成

ホーム

Declutr Small

johngiorgiによって開発

DeCLUTR-smallは、深層コントラスティブ学習に基づく汎用文エンコーダーモデルで、高品質な文埋め込み表現を生成します。

テキスト埋め込み英語オープンソースライセンス:Apache-2.0 #教師なし文エンコーディング #テキスト類似度計算 #コントラスティブ学習

ダウンロード数 56

リリース時間 : 3/2/2022

モデル概要

このモデルは教師なし学習で訓練され、文を意味ベクトル表現に変換でき、文類似度計算などのタスクに適しています。

モデル特徴

教師なし学習

モデルは教師なし訓練方式を採用し、ラベルデータなしで効果的な文表現を学習可能

深層コントラスティブ学習

コントラスティブ学習フレームワークを活用し、類似文の埋め込み表現を近づけ、異なる文の表現を遠ざける

汎用文エンコーディング

任意の文に対して高品質な意味ベクトル表現を生成可能

モデル能力

文埋め込み生成

意味類似度計算

テキスト特徴量抽出

使用事例

情報検索

ドキュメント類似度計算

ドキュメント間の意味的類似度を計算し、関連ドキュメントを検索

テキストクラスタリング

意味的類似テキストグループ化

意味的に類似した文やドキュメントを自動的にグループ化

🚀 DeCLUTR-small

「DeCLUTR-small」は、文の類似度を計算するためのモデルです。Transformerベースのアーキテクチャを使用して、文の埋め込みを生成し、文間の意味的な類似性を評価します。

🚀 クイックスタート

このモデルは、文の類似度を計算するために使用できます。以下に使用方法の例を示します。

✨ 主な機能

文の類似度計算：文間の意味的な類似性を評価できます。
特徴抽出：文の埋め込みを生成し、特徴抽出に利用できます。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下に例を示します。

pip install sentence-transformers transformers scipy torch

💻 使用例

基本的な使用法

SentenceTransformersを使用する場合

from scipy.spatial.distance import cosine
from sentence_transformers import SentenceTransformer

# モデルをロード
model = SentenceTransformer("johngiorgi/declutr-small")

# 埋め込み対象のテキストを準備
texts = [
    "A smiling costumed woman is holding an umbrella.",
    "A happy woman in a fairy costume holds an umbrella.",
]

# テキストを埋め込み
embeddings = model.encode(texts)

# コサイン距離を用いて意味的な類似度を計算
semantic_sim = 1 - cosine(embeddings[0], embeddings[1])

🤗 Transformersを使用する場合

import torch
from scipy.spatial.distance import cosine
from transformers import AutoModel, AutoTokenizer

# モデルをロード
tokenizer = AutoTokenizer.from_pretrained("johngiorgi/declutr-small")
model = AutoModel.from_pretrained("johngiorgi/declutr-small")

# 埋め込み対象のテキストを準備
text = [
    "A smiling costumed woman is holding an umbrella.",
    "A happy woman in a fairy costume holds an umbrella.",
]
inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt")

# テキストを埋め込み
with torch.no_grad():
    sequence_output = model(**inputs)[0]

# トークンレベルの埋め込みを平均プーリングして文レベルの埋め込みを取得
embeddings = torch.sum(
    sequence_output * inputs["attention_mask"].unsqueeze(-1), dim=1
) / torch.clamp(torch.sum(inputs["attention_mask"], dim=1, keepdims=True), min=1e-9)

# コサイン距離を用いて意味的な類似度を計算
semantic_sim = 1 - cosine(embeddings[0], embeddings[1])

📚 ドキュメント

モデルの説明

「DeCLUTR-small」モデルは、論文 DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations から派生したものです。

想定される用途と制限

このモデルは、GoogleのUniversal Sentence Encoder や Sentence Transformers と同様に、汎用的な文エンコーダとして使用することを想定しています。

BibTeXエントリと引用情報

@inproceedings{giorgi-etal-2021-declutr,
	title        = {{D}e{CLUTR}: Deep Contrastive Learning for Unsupervised Textual Representations},
	author       = {Giorgi, John  and Nitski, Osvald  and Wang, Bo  and Bader, Gary},
	year         = 2021,
	month        = aug,
	booktitle    = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)},
	publisher    = {Association for Computational Linguistics},
	address      = {Online},
	pages        = {879--895},
	doi          = {10.18653/v1/2021.acl-long.72},
	url          = {https://aclanthology.org/2021.acl-long.72}
}