A

Agro Nucleotide Transformer 1b

Developed by InstaDeepAI
AgroNT是一个基于可食用植物基因组训练的DNA语言模型,能够学习核苷酸序列的通用表示。
Downloads 4,869
Release Time : 8/1/2023

Model Overview

AgroNT是一个主要基于可食用植物基因组训练的DNA语言模型,采用Transformer架构,通过掩码语言建模目标学习核苷酸序列的通用表示。

Model Features

大规模基因组训练
模型使用来自48种不同植物物种的高可用性基因型数据进行训练,覆盖约1050万条基因组序列。
6-mer标记化
使用非重叠6-mer标记器将基因组核苷酸序列转换为标记,词汇表包含4096种可能的6-mer组合。
长上下文窗口
模型支持1024个标记的上下文窗口,对应约6144个碱基对。
高效预训练
预训练使用150万标记的有效批大小,共进行31.5万次更新步骤,总计训练4725亿标记。

Model Capabilities

基因组序列表示学习
掩码核苷酸预测
基因组序列嵌入生成

Use Cases

基因组学研究
植物基因组分析
利用模型学习植物基因组的通用表示,辅助基因组分析和比较。
基因组序列预测
预测被掩蔽的基因组序列部分,辅助基因组测序和注释。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase