G

Gena Lm Bert Large T2t

由AIRI-Institute開發
GENA-LM 是一個面向長DNA序列的開源基礎模型家族,基於人類DNA序列訓練的Transformer掩碼語言模型。
下載量 386
發布時間 : 4/2/2023

模型概述

GENA-LM模型是基於人類DNA序列訓練的Transformer掩碼語言模型,專門設計用於處理長DNA序列。

模型特點

長序列處理能力
輸入序列長度約4500個核苷酸(512個BPE標記),相比DNABERT的512個核苷酸有顯著提升
BPE分詞
採用BPE分詞而非k-mer分詞,提高了模型處理效率
T2T基因組預訓練
基於T2T人類基因組組裝進行預訓練,而非GRCh38.p13版本
預訓練數據增強
使用1000基因組計劃SNPs(gnomAD數據集)採樣突變進行數據增強

模型能力

DNA序列分析
啟動子預測
剪接位點預測
基因組序列註釋

使用案例

基因組學研究
300bp啟動子預測
預測300bp長度的DNA啟動子區域
具體性能指標見論文
2000bp啟動子預測
預測2000bp長度的DNA啟動子區域
具體性能指標見論文
剪接位點預測
預測DNA序列中的剪接位點
具體性能指標見論文
基因組序列註釋工具
GENA-Web應用
用於GENA-Web基因組序列註釋工具
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase