マーカー - 関連付け - 二値 - 基本オープンソースモデル - 生物医学テキストのマーキング関連分類に無料で使用可能

ホーム

Marker Associations Binary Base

jamboによって開発

PubMedBERTを生物医学テキストでファインチューニングした二分類モデルで、マーカー関連分類タスクに使用

テキスト分類

Transformers

オープンソースライセンス:MIT #生物医学テキスト分類 #高再現率 #PubMedBERTファインチューニング

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルはmicrosoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltextをファインチューニングしたバージョンで、生物医学分野のマーカー関連二分類タスクを処理するために特別に設計されており、遺伝子と化学物質などのエンティティ間の関連関係を識別できます。

モデル特徴

生物医学分野最適化

PubMedBERT事前学習モデルに基づき、生物医学テキストに特化して最適化

高再現率

評価データセットで高い再現率を示し、特に化学物質カテゴリの再現率は100%を達成

バランス性能

精度と再現率の間で良好なバランスを達成し、F1値は約0.87

モデル能力

生物医学テキスト分類

遺伝子関連識別

化学物質関連識別

二分類タスク処理

使用事例

生物医学研究

遺伝子-疾患関連分析

文献中の遺伝子と疾患間の関連関係を識別

精度0.808、再現率0.940

薬物-ターゲット相互作用識別

文献から化学物質と生物学的ターゲット間の相互作用関係を抽出

精度0.774、再現率1.0

文献マイニング

生物医学エンティティ関係抽出

PubMedなどの生物医学文献からエンティティ間の関連関係を抽出

🚀 marker-associations-binary-base

このモデルは、marker-associations-binary-baseデータセットでmicrosoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltextをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

📚 ドキュメント

遺伝子の結果

精度 (Precision) = 0.808
再現率 (Recall) = 0.940
F1値 = 0.869
正解率 (Accuracy) = 0.862
AUC = 0.944

化学物質の結果

精度 (Precision) = 0.774
再現率 (Recall) = 1.0
F1値 = 0.873
正解率 (Accuracy) = 0.926
AUC = 0.964

モデルの詳細

より詳細な情報は後日提供予定です。

想定される用途と制限

より詳細な情報は後日提供予定です。

学習と評価データ

より詳細な情報は後日提供予定です。

🔧 技術詳細

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 5e-05
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 16
シード (seed): 1
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
エポック数 (num_epochs): 15

学習結果

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	精度 (Precision)	再現率 (Recall)	F1値	正解率 (Accuracy)	AUC
No log	1.0	88	0.3266	0.8191	0.8462	0.8324	0.8670	0.9313
No log	2.0	176	0.3335	0.7870	0.9341	0.8543	0.8755	0.9465
No log	3.0	264	0.4243	0.7982	0.9560	0.87	0.8884	0.9516
No log	4.0	352	0.5388	0.825	0.7253	0.7719	0.8326	0.9384
No log	5.0	440	0.7101	0.8537	0.7692	0.8092	0.8584	0.9416
0.1824	6.0	528	0.6175	0.8242	0.8242	0.8242	0.8627	0.9478

フレームワークのバージョン

Transformers 4.11.3
Pytorch 1.9.0+cu111
Tokenizers 0.10.3

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

プロパティ	詳細
モデルタイプ	このモデルは、marker-associations-binary-baseデータセットでファインチューニングされたmicrosoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltextのバージョンです。
学習データ	marker-associations-binary-base