🚀 HIV_BERTモデル
HIV_BERTモデルは、HIVに特化したタスクを目的として、ProtBert - BFDモデルを改良して学習されたモデルです。このモデルは、Los Alamos HIV Sequence Databaseのウイルス全ゲノムを用いて改良されています。元のBFDデータベースにはウイルスタンパク質がほとんど含まれていないため、転移学習タスクの基礎として使用するには最適ではないため、この事前学習はHIV関連のタスクにとって重要です。
📚 目次
🔍 概要
HIV - BERTモデルは、HIVに特化したタスクのために、ProtBert - BFDモデルを改良して学習されました。これは、Los Alamos HIV Sequence Databaseのウイルス全ゲノムを用いて改良されました。元のBFDデータベースにはウイルスタンパク質がほとんど含まれていないため、転移学習タスクの基礎として使用するには最適ではないため、この事前学習はHIV関連のタスクにとって重要です。
📖 モデルの説明
元のProtBert - BFDモデルと同様に、このモデルは各アミノ酸を個別のトークンとしてエンコードします。このモデルは、マスク言語モデリングを使用して学習されました。これは、ランダムなトークンセットをマスクし、それらの予測に基づいてモデルを学習させるプロセスです。このモデルは、damlab/HIV_FLTデータセットを使用して、256アミノ酸のチャンクで、15%のマスク率で学習されました。
🎯 想定される用途と制限
マスク言語モデルとして、このツールはマスクアプローチを使用して予想される変異を予測するために使用できます。これは、高度に変異した配列、配列アーティファクト、またはその他のコンテキストを特定するために使用できます。BERTモデルとして、このツールは転移学習の基礎としても使用できます。この事前学習されたモデルは、HIV特有の分類タスクを開発する際の基礎として使用できます。
💻 使い方
これはBERTスタイルのマスク言語学習器であるため、マスクされた位置の最も可能性の高いアミノ酸を決定するために使用できます。
from transformers import pipeline
unmasker = pipeline("fill-mask", model="damlab/HIV_FLT")
unmasker(f"C T R P N [MASK] N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C")
[
{
"score": 0.9581968188285828,
"token": 17,
"token_str": "N",
"sequence": "C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.022986575961112976,
"token": 12,
"token_str": "K",
"sequence": "C T R P N K N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.003997281193733215,
"token": 14,
"token_str": "D",
"sequence": "C T R P N D N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.003636382520198822,
"token": 15,
"token_str": "T",
"sequence": "C T R P N T N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
},
{
"score": 0.002701344434171915,
"token": 10,
"token_str": "S",
"sequence": "C T R P N S N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C"
}
]
📊 学習データ
データセットdamlab/HIV_FLTは、元のrostlab/Prot - bert - bfdを改良するために使用されました。このデータセットには、世界中から収集された1790の完全なHIVゲノムが含まれています。翻訳すると、これらのゲノムには約390万のアミノ酸トークンが含まれています。
📋 学習手順
前処理
rostlab/Prot - bert - bfdモデルと同様に、まれなアミノ酸U、Z、O、およびBはXに変換され、各アミノ酸の間にスペースが追加されました。すべての文字列が連結され、学習のために256トークンのチャンクに分割されました。ランダムに20%のチャンクが検証用に確保されました。
学習
学習は、HuggingFaceの学習モジュールを使用して、15%のマスク率のMaskedLMデータローダーを使用して行われました。学習率はE - 5に設定され、50Kのウォームアップステップとコサインリスタート学習率スケジュールが使用され、確保されたデータセットの損失が3エポック連続で改善しなくなるまで続けられました。
📄 BibTeXエントリと引用情報
[詳細情報が必要です]
📄 ライセンス
このモデルはMITライセンスの下で提供されています。