A

Agro Nucleotide Transformer 1b

由InstaDeepAI開發
AgroNT是一個基於可食用植物基因組訓練的DNA語言模型,能夠學習核苷酸序列的通用表示。
下載量 4,869
發布時間 : 8/1/2023

模型概述

AgroNT是一個主要基於可食用植物基因組訓練的DNA語言模型,採用Transformer架構,通過掩碼語言建模目標學習核苷酸序列的通用表示。

模型特點

大規模基因組訓練
模型使用來自48種不同植物物種的高可用性基因型數據進行訓練,覆蓋約1050萬條基因組序列。
6-mer標記化
使用非重疊6-mer標記器將基因組核苷酸序列轉換為標記,詞彙表包含4096種可能的6-mer組合。
長上下文窗口
模型支持1024個標記的上下文窗口,對應約6144個鹼基對。
高效預訓練
預訓練使用150萬標記的有效批大小,共進行31.5萬次更新步驟,總計訓練4725億標記。

模型能力

基因組序列表示學習
掩碼核苷酸預測
基因組序列嵌入生成

使用案例

基因組學研究
植物基因組分析
利用模型學習植物基因組的通用表示,輔助基因組分析和比較。
基因組序列預測
預測被掩蔽的基因組序列部分,輔助基因組測序和註釋。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase