S

Smilestokenizer PubChem 1M

由DeepChem開發
該模型是基於PubChem 77M數據集中的100萬SMILES訓練的RoBERTa模型,使用Smiles-Tokenizer工具進行分詞,適用於分子表示學習和化學信息處理任務。
下載量 134
發布時間 : 3/2/2022

模型概述

該模型主要用於分子表示學習和化學信息處理任務,能夠將SMILES字符串轉換為有意義的向量表示,適用於藥物發現、分子性質預測等應用。

模型特點

基於大規模化學數據集
模型在PubChem 77M數據集的100萬SMILES上進行訓練,具有廣泛的化學結構覆蓋。
使用Smiles-Tokenizer
採用專門的Smiles-Tokenizer工具進行分詞,優化了對SMILES字符串的處理能力。
RoBERTa架構
基於RoBERTa架構,具有強大的序列建模和表示學習能力。

模型能力

SMILES字符串編碼
分子表示學習
化學信息處理

使用案例

藥物發現
分子性質預測
使用模型生成的分子表示預測分子的物理化學性質。
化學信息學
分子相似性計算
基於模型生成的分子表示計算分子之間的相似性。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase