分子模型

2025年最佳 92 款分子模型工具

Chemberta Zinc Base V1

基於RoBERTa架構的Transformer模型，專為化學SMILES字符串的掩碼語言建模任務設計

Molformer XL Both 10pct

MoLFormer是基於ZINC和PubChem中11億分子SMILES字符串預訓練的化學語言模型，本版本使用兩個數據集各10%樣本訓練

Evo是一個能夠進行長上下文建模和設計的生物基礎模型，使用StripedHyena架構，能以單核苷酸、字節級分辨率對序列進行建模。

togethercomputer

Evo 1 131k Base

Evo是一款能夠進行長上下文建模與設計的生物基礎模型，採用條紋鬣狗架構，可在單核苷酸字節級分辨率下建模序列。

togethercomputer

Materials.smi Ted

IBM提出的化學語言基礎模型，支持分子表示轉換與量子屬性預測等多種任務

TabPFN是一款基於Transformer架構的表格數據基礎模型，通過先驗數據學習機制，能夠在無需任務特定訓練的情況下，在小規模表格數據集上實現卓越性能。

Tabpfn Mix 1.0 Classifier

基於表格數據的基礎模型，預訓練數據來自隨機分類器混合生成的合成數據集

Nucleotide Transformer V2 50m Multi Species

核苷酸變換器是一組基於全基因組DNA序列進行預訓練的基礎語言模型，整合了3200多個人類基因組和850個廣泛物種的基因組數據。

Multitask Text And Chemistry T5 Base Augm

一個多領域、多任務的語言模型，旨在解決化學與自然語言領域的廣泛任務。

Transformers 英語

RNAErnie是一個基於非編碼RNA序列進行自監督預訓練的模型，採用多階段掩碼語言建模目標，為RNA研究提供強大的特徵表示能力。

Plantcaduceus L20

PlantCaduceus是一個基於16種被子植物基因組預訓練的DNA語言模型，採用Caduceus和Mamba架構，通過掩碼語言建模目標學習進化保守性和DNA序列語法。

基於大規模單細胞轉錄組語料庫預訓練的Transformer模型，用於網絡生物學預測

Nucleotide Transformer 500m 1000g

基於3,202個遺傳多樣性人類基因組預訓練的5億參數DNA序列分析模型

RNABERT是基於非編碼RNA（ncRNA）的預訓練模型，採用掩碼語言建模（MLM）和結構對齊學習（SAL）目標。

分子模型其他

Caduceus Ph Seqlen 131k D Model 256 N Layer 16

Caduceus-Ph是一個基於MambaDNA架構的DNA序列建模模型，隱藏維度為256，具有16層結構。

Agro Nucleotide Transformer 1b

AgroNT是一個基於可食用植物基因組訓練的DNA語言模型，能夠學習核苷酸序列的通用表示。

Nucleotide Transformer 500m Human Ref

基於人類參考基因組預訓練的5億參數Transformer模型，整合了3,200多個多樣化人類基因組和850個物種的DNA序列信息

Bert Base Smiles

這是一個在SMILES（簡化分子線性輸入系統）字符串上預訓練的雙向轉換器模型，主要用於分子相關任務。

Materials.selfies Ted

基於Transformer架構的編碼器-解碼器模型，專為使用SELFIES進行分子表徵而設計

Plantcaduceus L32

PlantCaduceus是基於16種被子植物基因組預訓練的DNA語言模型，採用Caduceus和Mamba架構，通過掩碼語言建模目標學習進化保守性和DNA序列語法。

Hyenadna Small 32k Seqlen Hf

HyenaDNA是一個長距離基因組基礎模型，在單核苷酸分辨率下預訓練了長達100萬個標記的上下文長度。

Transformers 其他

GROVER是一個預訓練的DNA語言模型，專門設計用於理解和生成人類基因組序列的上下文表示。

Nucleotide Transformer 2.5b Multi Species

基於850個物種基因組預訓練的DNA序列分析模型，支持分子表型預測等任務

Caduceus Ps Seqlen 131k D Model 256 N Layer 16

Caduceus-PS是一個具有反向互補等變性的DNA序列建模模型，專為長序列處理設計。

Geneformer是基於大規模單細胞轉錄組數據預訓練的Transformer模型，專為網絡生物學數據稀缺場景設計，能實現上下文感知的預測。

Hyenadna Large 1m Seqlen Hf

HyenaDNA是一個長距離基因組基礎模型，預訓練上下文長度可達100萬個標記，具有單核苷酸分辨率。

Transformers 其他

ChemGPT是基於GPT-Neo架構的生成式分子建模Transformer模型，預訓練數據來源於PubChem10M數據集。

基於5萬個SMILES字符串訓練的BERT模型，用於理解和處理化學分子表示

Dqn MountainCar V0

這是一個使用stable-baselines3訓練的DQN智能體模型，專門用於解決MountainCar-v0環境中的強化學習任務。

基於Transformer架構的DNA序列嵌入模型，支持序列比對和基因組學應用

roychowdhuryresearch

SegmentNT是一個基於Nucleotide Transformer的DNA分割模型，能夠以單核苷酸分辨率預測序列中多種基因組元素的位置。

Hubert Ecg Small

面向心電圖分析的自監督預訓練基礎模型，支持164種心血管病症檢測

Pretrained Smiles Pubchem10m

該模型是基於PubChem數據庫中1000萬SMILES字符串進行預訓練的化學信息學模型，主要用於分子表示學習和化學性質預測。

DrugGPT是基於GPT2結構的生成式藥物設計模型，通過自然語言處理技術為藥物設計帶來創新。

Ppo CartPole V1

這是一個基於PPO算法的強化學習模型，專門用於解決CartPole-v1環境中的平衡問題。

MOLT5-small 是一個基於預訓練模型的分子與自然語言轉換模型，能夠實現分子結構與自然語言描述之間的相互轉換。

ChemGPT是基於GPT-Neo模型的生成式分子建模工具，專注於化學領域的分子生成與研究。

基於GPT2風格的自迴歸語言模型，專門用於生成類藥分子或從SMILES字符串生成嵌入表示

Gena Lm Bert Large T2t

GENA-LM 是一個面向長DNA序列的開源基礎模型家族，基於人類DNA序列訓練的Transformer掩碼語言模型。

Transformers 其他

PolyNC模型通過融合自然語言與化學語言，實現聚合物性能的快速精準預測。

Leandojo Lean4 Tacgen Byt5 Small

LeanDojo 是一個基於檢索增強語言模型的定理證明系統，旨在通過結合語言模型和檢索技術來提升自動定理證明的能力。

Uni-3DAR是一個自迴歸模型，統一了多種3D任務，專注於分子、蛋白質和晶體等微觀結構的生成和理解。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase