N

Nucleotide Transformer V2 500m Multi Species

由InstaDeepAI開發
基於全基因組DNA序列預訓練的基礎語言模型,整合了3200多個人類基因組和850個廣泛物種基因組的信息。
下載量 6,166
發布時間 : 7/27/2023

模型概述

該模型是一個具有5億參數的變換器模型,專注於DNA序列分析,在分子表型預測方面提供高準確度結果。

模型特點

多物種基因組整合
整合了850個不同物種的基因組數據,包括模式生物和非模式生物
大規模預訓練
在1740億個核苷酸(約290億標記)上進行預訓練
先進架構
使用旋轉位置嵌入和門控線性單元的第二代Transformer架構
高效分詞
採用6-聚體優先的分詞策略,詞彙表大小4105

模型能力

DNA序列分析
分子表型預測
基因組特徵提取
序列嵌入生成

使用案例

基因組學研究
調控元件預測
利用模型預測DNA序列中的調控元件
相比現有方法提供更準確的結果
跨物種比較
分析不同物種間的基因組相似性和差異性
生物醫學研究
疾病相關變異分析
識別與疾病相關的DNA序列變異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase