N

Nucleotide Transformer V2 50m 3mer Multi Species

由InstaDeepAI開發
基於850個物種基因組預訓練的DNA序列基礎語言模型,專注於蛋白質任務預測
下載量 33
發布時間 : 5/8/2024

模型概述

該模型通過整合多物種基因組數據(含3200多個人類基因組和850個多樣化物種),提供高精度的分子表型預測能力,特別針對蛋白質下游任務優化

模型特點

多物種基因組整合
預訓練數據涵蓋850個物種(包括模式和非模式生物),突破單一參考基因組的限制
3mer分詞優化
採用3mer分詞策略提升細粒度蛋白質預測能力,詞彙量達4105
增強型架構設計
使用旋轉位置編碼替代傳統學習式編碼,並引入門控線性單元提升模型表現
大規模預訓練
基於1740億核苷酸(290億詞元)訓練,採用100萬詞元的大規模批處理

模型能力

DNA序列嵌入生成
掩碼核苷酸預測
蛋白質功能推斷
基因組特徵提取

使用案例

基因組學研究
保守序列分析
通過跨物種序列比對識別進化保守區域
可檢測到傳統方法難以發現的遠緣物種同源序列
蛋白質編碼區預測
基於DNA序列預測潛在蛋白質編碼區域
在InstaDeepAI/true-cds-protein-tasks數據集上表現優異
生物醫學應用
疾病相關變異檢測
識別可能導致蛋白質功能異常的DNA變異
對非編碼區變異的預測靈敏度顯著提升
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase