N

Nucleotide Transformer V2 50m 3mer Multi Species

InstaDeepAIによって開発
850種の生物ゲノムで事前学習されたDNA配列基礎言語モデルで、タンパク質タスク予測に特化
ダウンロード数 33
リリース時間 : 5/8/2024

モデル概要

このモデルは多種生物ゲノムデータ(3200以上のヒトゲノムと850の多様な生物を含む)を統合し、高精度の分子表現型予測能力を提供、特にタンパク質下流タスク向けに最適化

モデル特徴

多種生物ゲノム統合
事前学習データは850種(モデル生物と非モデル生物を含む)をカバーし、単一参照ゲノムの制限を突破
3merトークン最適化
3merトークン戦略を採用し、細粒度タンパク質予測能力を向上、語彙数は4105に達する
強化型アーキテクチャ設計
従来の学習型エンコーディングの代わりにローテーションポジションエンコーディングを使用し、ゲート付き線形ユニットを導入してモデル性能を向上
大規模事前学習
1740億ヌクレオチド(290億トークン)で訓練し、100万トークンの大規模バッチ処理を採用

モデル能力

DNA配列埋め込み生成
マスクヌクレオチド予測
タンパク質機能推論
ゲノム特徴抽出

使用事例

ゲノム学研究
保存配列解析
種間配列比較により進化的保存領域を識別
従来手法では検出困難な遠縁種相同配列を検出可能
タンパク質コード領域予測
DNA配列に基づき潜在的なタンパク質コード領域を予測
InstaDeepAI/true-cds-protein-tasksデータセットで優れた性能
生物医学応用
疾患関連変異検出
タンパク質機能異常を引き起こす可能性のあるDNA変異を識別
非コード領域変異の予測感度が顕著に向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase