分子模型

2025年最佳的 92 个分子模型工具

Chemberta Zinc Base V1

基于RoBERTa架构的Transformer模型，专为化学SMILES字符串的掩码语言建模任务设计

Molformer XL Both 10pct

MoLFormer是基于ZINC和PubChem中11亿分子SMILES字符串预训练的化学语言模型，本版本使用两个数据集各10%样本训练

Evo是一个能够进行长上下文建模和设计的生物基础模型，使用StripedHyena架构，能以单核苷酸、字节级分辨率对序列进行建模。

togethercomputer

Evo 1 131k Base

Evo是一款能够进行长上下文建模与设计的生物基础模型，采用条纹鬣狗架构，可在单核苷酸字节级分辨率下建模序列。

togethercomputer

Materials.smi Ted

IBM提出的化学语言基础模型，支持分子表示转换与量子属性预测等多种任务

TabPFN是一款基于Transformer架构的表格数据基础模型，通过先验数据学习机制，能够在无需任务特定训练的情况下，在小规模表格数据集上实现卓越性能。

Tabpfn Mix 1.0 Classifier

基于表格数据的基础模型，预训练数据来自随机分类器混合生成的合成数据集

Nucleotide Transformer V2 50m Multi Species

核苷酸变换器是一组基于全基因组DNA序列进行预训练的基础语言模型，整合了3200多个人类基因组和850个广泛物种的基因组数据。

Multitask Text And Chemistry T5 Base Augm

一个多领域、多任务的语言模型，旨在解决化学与自然语言领域的广泛任务。

Transformers 英语

RNAErnie是一个基于非编码RNA序列进行自监督预训练的模型，采用多阶段掩码语言建模目标，为RNA研究提供强大的特征表示能力。

Plantcaduceus L20

PlantCaduceus是一个基于16种被子植物基因组预训练的DNA语言模型，采用Caduceus和Mamba架构，通过掩码语言建模目标学习进化保守性和DNA序列语法。

基于大规模单细胞转录组语料库预训练的Transformer模型，用于网络生物学预测

Nucleotide Transformer 500m 1000g

基于3,202个遗传多样性人类基因组预训练的5亿参数DNA序列分析模型

RNABERT是基于非编码RNA（ncRNA）的预训练模型，采用掩码语言建模（MLM）和结构对齐学习（SAL）目标。

分子模型其他

Caduceus Ph Seqlen 131k D Model 256 N Layer 16

Caduceus-Ph是一个基于MambaDNA架构的DNA序列建模模型，隐藏维度为256，具有16层结构。

Agro Nucleotide Transformer 1b

AgroNT是一个基于可食用植物基因组训练的DNA语言模型，能够学习核苷酸序列的通用表示。

Nucleotide Transformer 500m Human Ref

基于人类参考基因组预训练的5亿参数Transformer模型，整合了3,200多个多样化人类基因组和850个物种的DNA序列信息

Bert Base Smiles

这是一个在SMILES（简化分子线性输入系统）字符串上预训练的双向转换器模型，主要用于分子相关任务。

Materials.selfies Ted

基于Transformer架构的编码器-解码器模型，专为使用SELFIES进行分子表征而设计

Plantcaduceus L32

PlantCaduceus是基于16种被子植物基因组预训练的DNA语言模型，采用Caduceus和Mamba架构，通过掩码语言建模目标学习进化保守性和DNA序列语法。

Hyenadna Small 32k Seqlen Hf

HyenaDNA是一个长距离基因组基础模型，在单核苷酸分辨率下预训练了长达100万个标记的上下文长度。

Transformers 其他

GROVER是一个预训练的DNA语言模型，专门设计用于理解和生成人类基因组序列的上下文表示。

Nucleotide Transformer 2.5b Multi Species

基于850个物种基因组预训练的DNA序列分析模型，支持分子表型预测等任务

Caduceus Ps Seqlen 131k D Model 256 N Layer 16

Caduceus-PS是一个具有反向互补等变性的DNA序列建模模型，专为长序列处理设计。

Geneformer是基于大规模单细胞转录组数据预训练的Transformer模型，专为网络生物学数据稀缺场景设计，能实现上下文感知的预测。

Hyenadna Large 1m Seqlen Hf

HyenaDNA是一个长距离基因组基础模型，预训练上下文长度可达100万个标记，具有单核苷酸分辨率。

Transformers 其他

ChemGPT是基于GPT-Neo架构的生成式分子建模Transformer模型，预训练数据来源于PubChem10M数据集。

基于5万个SMILES字符串训练的BERT模型，用于理解和处理化学分子表示

Dqn MountainCar V0

这是一个使用stable-baselines3训练的DQN智能体模型，专门用于解决MountainCar-v0环境中的强化学习任务。

基于Transformer架构的DNA序列嵌入模型，支持序列比对和基因组学应用

roychowdhuryresearch

SegmentNT是一个基于Nucleotide Transformer的DNA分割模型，能够以单核苷酸分辨率预测序列中多种基因组元素的位置。

Hubert Ecg Small

面向心电图分析的自监督预训练基础模型，支持164种心血管病症检测

Pretrained Smiles Pubchem10m

该模型是基于PubChem数据库中1000万SMILES字符串进行预训练的化学信息学模型，主要用于分子表示学习和化学性质预测。

DrugGPT是基于GPT2结构的生成式药物设计模型，通过自然语言处理技术为药物设计带来创新。

Ppo CartPole V1

这是一个基于PPO算法的强化学习模型，专门用于解决CartPole-v1环境中的平衡问题。

MOLT5-small 是一个基于预训练模型的分子与自然语言转换模型，能够实现分子结构与自然语言描述之间的相互转换。

ChemGPT是基于GPT-Neo模型的生成式分子建模工具，专注于化学领域的分子生成与研究。

基于GPT2风格的自回归语言模型，专门用于生成类药分子或从SMILES字符串生成嵌入表示

Gena Lm Bert Large T2t

GENA-LM 是一个面向长DNA序列的开源基础模型家族，基于人类DNA序列训练的Transformer掩码语言模型。

Transformers 其他

PolyNC模型通过融合自然语言与化学语言，实现聚合物性能的快速精准预测。

Leandojo Lean4 Tacgen Byt5 Small

LeanDojo 是一个基于检索增强语言模型的定理证明系统，旨在通过结合语言模型和检索技术来提升自动定理证明的能力。

Uni-3DAR是一个自回归模型，统一了多种3D任务，专注于分子、蛋白质和晶体等微观结构的生成和理解。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase