🚀 [HIV_V3_bodysiteのモデルカード]
このモデルは、HIVのV3ループサンプルが由来する部位をより正確に予測するために開発されまし。HIV-BERTモデルを改良し、特定のデータセットで訓練することで、部位の予測精度を向上させています。
🚀 クイックスタート
このモデルを使用することで、HIVのゲノム配列からその由来する組織を予測することができます。以下に使用例を示します。
💻 使用例
基本的な使用法
from transformers import pipeline
predictor = pipeline("text-classification", model="damlab/HIV_V3_bodysite")
predictor(f"C T R P N N N T R K S I R I Q R G P G R A F V T I G K I G N M R Q A H C")
[
[
{
"label": "periphery-tcell",
"score": 0.29097115993499756
},
{
"label": "periphery-monocyte",
"score": 0.014322502538561821
},
{
"label": "CNS",
"score": 0.06870711594820023
},
{
"label": "breast-milk",
"score": 0.002785981632769108
},
{
"label": "female-genitals",
"score": 0.024997007101774216
},
{
"label": "male-genitals",
"score": 0.01040483545511961
},
{
"label": "gastric",
"score": 0.06872137635946274
},
{
"label": "lung",
"score": 0.04432062804698944
},
{
"label": "organ",
"score": 0.47476938366889954
}
]
]
✨ 主な機能
- HIVのゲノム配列からその由来する組織を予測することができます。
- HIV-BERTモデルを改良し、特定のデータセットで訓練することで、部位の予測精度を向上させています。
📦 インストール
このモデルはHugging FaceのTransformersライブラリを使用しています。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデルの概要
HIV-BERT-Bodysite-Identificationモデルは、HIV-BERTモデルを改良して開発されまし。HIV-BERTは、ProtBert-BFDモデルを改良したもので、HIVに関連するタスクに特化しています。このモデルは、Los Alamos HIV Sequence DatabaseのHIV V3配列を使用して訓練され、HIV-BERTモデルよりも正確に部位の予測が可能です。
使用目的と制限
このツールは、HIVのゲノム配列からその由来する組織を予測するために使用できます。ただし、臨床診断ツールとしては使用できません。
このツールは、Los Alamos HIV Sequence Databaseのデータセットを使用して訓練されています。このデータベースは、主に北米とヨーロッパのサブタイプBの配列で構成されており、サブタイプC、A、Dの寄与はわずかです。現在、これらのクラス間でのパフォーマンスのバランスを取るための努力はされていません。そのため、非B配列で良好なパフォーマンスを得るためには、追加の配列での改良を検討する必要があります。
訓練データ
このモデルは、damlab/HIV_V3_bodysiteデータセットの0番目のフォールドを使用して訓練されまし。このデータセットは、Los Alamos HIV Sequence Databaseから抽出された5510の配列(それぞれ約35トークン)で構成されています。
訓練手順
前処理
rostlab/Prot-bert-bfdモデルと同様に、まれなアミノ酸U、Z、O、BはXに変換され、各アミノ酸の間にスペースが追加されます。すべての文字列が連結され、256トークンのチャンクに分割されて訓練に使用されます。ランダムに20%のチャンクが検証用に取り置かれます。
訓練
damlab/HIV-BERTモデルがAutoModelforClassificiationの初期重みとして使用されます。モデルは、学習率1E-5、ウォームアップステップ50K、およびcosine_with_restarts学習率スケジュールで訓練され、ホールドアウトデータセットの損失が3エポック連続で改善しなくなるまで続けられます。これは複数分類タスク(タンパク質は複数の部位で見つかる可能性がある)であるため、損失は各カテゴリのBinary Cross Entropyとして計算されます。BCEは、クラス比率の逆数で重み付けされ、クラス不均衡に対応しています。
🔧 技術詳細
データセット
Property |
Details |
Model Type |
HIV-BERT-Bodysite-Identification |
Training Data |
damlab/HIV_V3_bodysite |
評価指標
📄 ライセンス
このモデルはMITライセンスの下で公開されています。