S

Smilestokenizer PubChem 1M

DeepChemによって開発
このモデルは、PubChem 77Mデータセットの100万のSMILESを用いて訓練されたRoBERTaモデルで、Smiles-Tokenizerツールを使用して分かち書きを行い、分子表現学習と化学情報処理タスクに適しています。
ダウンロード数 134
リリース時間 : 3/2/2022

モデル概要

このモデルは主に分子表現学習と化学情報処理タスクに使用され、SMILES文字列を意味のあるベクトル表現に変換することができ、創薬や分子特性予測などのアプリケーションに適しています。

モデル特徴

大規模化学データセットに基づく
モデルはPubChem 77Mデータセットの100万のSMILESで訓練されており、広範な化学構造をカバーしています。
Smiles-Tokenizerを使用
専用のSmiles-Tokenizerツールを使用して分かち書きを行い、SMILES文字列の処理能力を最適化しています。
RoBERTaアーキテクチャ
RoBERTaアーキテクチャに基づいており、強力なシーケンスモデリングと表現学習能力を持っています。

モデル能力

SMILES文字列エンコーディング
分子表現学習
化学情報処理

使用事例

創薬
分子特性予測
モデルが生成した分子表現を使用して分子の物理化学的特性を予測します。
化学情報学
分子類似性計算
モデルが生成した分子表現に基づいて分子間の類似性を計算します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase