declutr-sci-baseオープンソース科学テキストエンコーダー - 無料で200万編の論文の文エンコーディングを処理可能

ホーム

Declutr Sci Base

johngiorgiによって開発

SciBERTに基づく科学テキストの文エンコーダーで、自己教師付き学習により200万本の科学論文で学習されました。

テキスト埋め込み英語オープンソースライセンス:Apache-2.0 #科学テキスト埋め込み #教師なし対比学習 #論文の意味的マッチング

ダウンロード数 50

リリース時間 : 3/2/2022

モデル概要

このモデルは科学テキストに特化して最適化された文エンコーダーで、文を高次元のベクトル表現に変換し、文の類似度計算などのタスクに使用できます。

モデル特徴

科学テキスト最適化

科学文献に特化して事前学習され、科学分野のテキストで優れた性能を発揮します。

自己教師付き学習

DeCLUTRの自己教師付き学習戦略を採用し、ラベル付きデータを必要としません。

文レベルの埋め込み

文全体を固定長のベクトル表現にエンコードできます。

モデル能力

文の埋め込み

意味的類似度計算

科学テキストの特徴抽出

使用事例

学術研究

文献検索

意味的類似度を通じて関連する科学文献を検索します。

検索の精度と関連性を向上させます。

論文推薦

内容の類似度に基づいて関連する研究論文を推薦します。

テキスト分析

科学テキストのクラスタリング

類似した科学論文の要約をグループ化します。

🚀 DeCLUTR-sci-base

このモデルは、科学的な文章の類似度を計算するためのもので、科学論文のデータセットを用いて事前学習されています。

🚀 クイックスタート

このモデルは、allenai/scibert_scivocab_uncased モデルをベースに、S2ORC からの200万以上の科学論文を使用して、DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations で提示された自己教師付き学習戦略を用いて拡張事前学習されています。

✨ 主な機能

このモデルは、GoogleのUniversal Sentence Encoder や Sentence Transformers と同様に、文章エンコーダとして使用されることを目的としています。特に科学的な文章に適しています。

💻 使用例

基本的な使用法

SentenceTransformers を使用する場合

from scipy.spatial.distance import cosine
from sentence_transformers import SentenceTransformer

# モデルを読み込む
model = SentenceTransformer("johngiorgi/declutr-sci-base")

# 埋め込むテキストを準備する
text = [
    "Oncogenic KRAS mutations are common in cancer.",
    "Notably, c-Raf has recently been found essential for development of K-Ras-driven NSCLCs.",
]

# テキストを埋め込む
embeddings = model.encode(texts)

# コサイン距離を介して意味的な類似度を計算する
semantic_sim = 1 - cosine(embeddings[0], embeddings[1])

🤗 Transformers を使用する場合

import torch
from scipy.spatial.distance import cosine
from transformers import AutoModel, AutoTokenizer

# モデルを読み込む
tokenizer = AutoTokenizer.from_pretrained("johngiorgi/declutr-sci-base")
model = AutoModel.from_pretrained("johngiorgi/declutr-sci-base")

# 埋め込むテキストを準備する
text = [
    "Oncogenic KRAS mutations are common in cancer.",
    "Notably, c-Raf has recently been found essential for development of K-Ras-driven NSCLCs.",
]
inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt")

# テキストを埋め込む
with torch.no_grad():
    sequence_output = model(**inputs)[0]

# トークンレベルの埋め込みを平均プーリングして、文章レベルの埋め込みを取得する
embeddings = torch.sum(
    sequence_output * inputs["attention_mask"].unsqueeze(-1), dim=1
) / torch.clamp(torch.sum(inputs["attention_mask"], dim=1, keepdims=True), min=1e-9)

# コサイン距離を介して意味的な類似度を計算する
semantic_sim = 1 - cosine(embeddings[0], embeddings[1])

📚 ドキュメント

BibTeXエントリと引用情報

@inproceedings{giorgi-etal-2021-declutr,
    title        = {{D}e{CLUTR}: Deep Contrastive Learning for Unsupervised Textual Representations},
    author       = {Giorgi, John  and Nitski, Osvald  and Wang, Bo  and Bader, Gary},
    year         = 2021,
    month        = aug,
    booktitle    = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)},
    publisher    = {Association for Computational Linguistics},
    address      = {Online},
    pages        = {879--895},
    doi          = {10.18653/v1/2021.acl-long.72},
    url          = {https://aclanthology.org/2021.acl-long.72}
}

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

属性	详情
パイプラインタグ	文章類似度
タグ	sentence-transformers、特徴抽出、文章類似度
言語	英語
ライセンス	Apache-2.0
データセット	s2orc