N

Nucleotide Transformer 2.5b Multi Species

由InstaDeepAI開發
基於850個物種基因組預訓練的DNA序列分析模型,支持分子表型預測等任務
下載量 2,714
發布時間 : 4/5/2023

模型概述

該模型是專為基因組學設計的大型語言模型,通過整合多物種DNA序列數據,能夠準確預測分子表型。相比傳統方法,具有更強的泛化能力和準確性。

模型特點

多物種基因組整合
整合了850個物種的基因組數據,包括模式和非模式生物
大規模預訓練
在3000億詞元數據上訓練,覆蓋1740億個核苷酸
高效分詞策略
採用6-mer優先的分詞方法,詞表大小4105

模型能力

DNA序列分析
分子表型預測
基因組特徵提取
掩碼核苷酸預測

使用案例

基因組學研究
調控元件識別
識別DNA序列中的功能調控區域
相比現有方法提供更準確的預測
跨物種比較分析
分析不同物種間的基因組相似性和差異性
生物醫學研究
疾病相關變異預測
預測DNA序列變異對疾病的影響
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase