SmilesTokenizer_PubChem_1M開源模型 - 為分子表示學習和化學信息處理助力

首頁

Smilestokenizer PubChem 1M

由DeepChem開發

該模型是基於PubChem 77M數據集中的100萬SMILES訓練的RoBERTa模型，使用Smiles-Tokenizer工具進行分詞，適用於分子表示學習和化學信息處理任務。

分子模型

Transformers

#SMILES分子表徵 #化學信息學 #RoBERTa微調

下載量 134

發布時間 : 3/2/2022

模型概述

該模型主要用於分子表示學習和化學信息處理任務，能夠將SMILES字符串轉換為有意義的向量表示，適用於藥物發現、分子性質預測等應用。

模型特點

基於大規模化學數據集

模型在PubChem 77M數據集的100萬SMILES上進行訓練，具有廣泛的化學結構覆蓋。

使用Smiles-Tokenizer

採用專門的Smiles-Tokenizer工具進行分詞，優化了對SMILES字符串的處理能力。

RoBERTa架構

基於RoBERTa架構，具有強大的序列建模和表示學習能力。

模型能力

SMILES字符串編碼

分子表示學習

化學信息處理

使用案例

藥物發現

分子性質預測

使用模型生成的分子表示預測分子的物理化學性質。

化學信息學

分子相似性計算

基於模型生成的分子表示計算分子之間的相似性。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Smilestokenizer PubChem 1M

模型概述

模型特點

模型能力

使用案例

🚀 RoBERTa模型

🚀 快速開始