polyBERTオープンソース化学言語モデル - ポリマー情報科学の高速処理と構造の数値化を無料で実現する

ホーム

Polybert

kuelumbusによって開発

polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。

テキスト埋め込み

Transformers

#ポリマー化学フィンガープリント #PSMILESエンコーディング #材料情報学

ダウンロード数 1.0M

リリース時間 : 9/15/2022

モデル概要

polyBERTは、ポリマー化学専用のセンテンストランスフォーマーモデルで、PSMILES文字列を600次元の密なフィンガープリントに変換し、ポリマー化学構造を表現します。

モデル特徴

化学言語処理

ポリマー化学のPSMILES文字列を処理するために特別に設計されており、化学構造を理解できます。

高次元フィンガープリント

PSMILES文字列を600次元の密なフィンガープリントにマッピングし、豊富な化学構造表現を提供します。

高速情報学

超高速のポリマー情報学処理をサポートし、大規模な化学データ分析に適しています。

モデル能力

化学構造表現

文の類似性計算

特徴抽出

使用事例

化学情報学

ポリマー化学構造分析

polyBERTを使用してPSMILES文字列をフィンガープリントに変換し、化学構造の分析と比較に使用します。

ポリマー化学構造を効率的に表現および比較できます。

化学データベース検索

polyBERTで生成されたフィンガープリントを使用して、化学データベースの高速検索と類似性検索を行います。

検索速度と精度が向上します。

🚀 kuelumbus/polyBERT

これはpolyBERTです。完全に機械駆動の超高速ポリマー情報科学を可能にする化学言語モデルです。polyBERTはPSMILES文字列を600次元の密な指紋にマッピングします。これらの指紋はポリマーの化学構造を数値的に表しています。ライセンス契約については、LICENSEファイルを参照してください。

🚀 クイックスタート

✨ 主な機能

polyBERTは化学言語モデルで、PSMILES文字列を600次元の密な指紋にマッピングし、ポリマーの化学構造を数値的に表現します。

📦 インストール

sentence-transformersをインストールすると、このモデルを簡単に使用できます。

pip install sentence-transformers

💻 使用例

基本的な使用法 (Sentence-Transformers)

from sentence_transformers import SentenceTransformer
psmiles_strings = ["[*]CC[*]", "[*]COC[*]"]

polyBERT = SentenceTransformer('kuelumbus/polyBERT')
embeddings = polyBERT.encode(psmiles_strings)
print(embeddings)

高度な使用法 (HuggingFace Transformers)

sentence-transformersを使用せずにモデルを使用する場合、まず入力をTransformerモデルに通し、その後文脈化された単語埋め込みに適切なプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
psmiles_strings = ["[*]CC[*]", "[*]COC[*]"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('kuelumbus/polyBERT')
polyBERT = AutoModel.from_pretrained('kuelumbus/polyBERT')

# Tokenize sentences
encoded_input = tokenizer(psmiles_strings, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = polyBERT(**encoded_input)

# Perform pooling. In this case, mean pooling.
fingerprints = mean_pooling(model_output, encoded_input['attention_mask'])

print("Fingerprints:")
print(fingerprints)

📚 ドキュメント

評価結果

詳細な評価結果については、https://github.com/Ramprasad-Group/polyBERT とarXivの論文を参照してください。

モデルのアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: DebertaV2Model 
  (1): Pooling({'word_embedding_dimension': 600, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

📄 ライセンス

ライセンス契約については、LICENSEファイルを参照してください。

引用と著者

Kuenneth, C., Ramprasad, R. polyBERT: a chemical language model to enable fully machine - driven ultrafast polymer informatics. Nat Commun 14, 4099 (2023). https://doi.org/10.1038/s41467-023-39868-6