N

Nucleotide Transformer V2 500m Multi Species

由 InstaDeepAI 开发
基于全基因组DNA序列预训练的基础语言模型,整合了3200多个人类基因组和850个广泛物种基因组的信息。
下载量 6,166
发布时间 : 7/27/2023

模型简介

该模型是一个具有5亿参数的变换器模型,专注于DNA序列分析,在分子表型预测方面提供高准确度结果。

模型特点

多物种基因组整合
整合了850个不同物种的基因组数据,包括模式生物和非模式生物
大规模预训练
在1740亿个核苷酸(约290亿标记)上进行预训练
先进架构
使用旋转位置嵌入和门控线性单元的第二代Transformer架构
高效分词
采用6-聚体优先的分词策略,词汇表大小4105

模型能力

DNA序列分析
分子表型预测
基因组特征提取
序列嵌入生成

使用案例

基因组学研究
调控元件预测
利用模型预测DNA序列中的调控元件
相比现有方法提供更准确的结果
跨物种比较
分析不同物种间的基因组相似性和差异性
生物医学研究
疾病相关变异分析
识别与疾病相关的DNA序列变异
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase