🚀 医療ノート脱識別用RoBERTaモデル
- このモデルは、医療ノートの脱識別を目的として微調整されたRoBERTaモデルです。
- 医療ノート内の個人情報を精度よく検出し、脱識別処理に役立ちます。
🚀 クイックスタート
このモデルは医療ノートの脱識別に特化しており、保護された医療情報(PHI/PII)のエンティティを予測するように訓練されています。以下のセクションで、モデルの詳細、使用方法、データセット、訓練手順などを説明します。
✨ 主な機能
- 医療ノートの脱識別:RoBERTaモデルを微調整して、医療ノート内の保護された医療情報(PHI/PII)を特定します。
- シーケンスラベリング:トークン分類により、各トークンを非PHIまたは11種類のPHIタイプのいずれかに分類します。
- BILOUタギング:トークン予測をスパンに集約するためにBILOUタギングを使用します。
📦 インストール
このモデルの使用方法やデータの形式、その他の有用な情報は、GitHubリポジトリ Robust DeID で確認できます。
💻 使用例
基本的な使用法
モデルの動作デモ(モデルの予測を使用して医療ノートを脱識別する)は、このスペースで確認できます: Medical-Note-Deidentification。
高度な使用法
モデルを使用してフォワードパスを実行する手順は、こちらで確認できます: Forward Pass。
手順の概要は以下の通りです:
- データセットを文分割(sentencize)し、トークン化します。
- モデルの予測関数を使用して、各トークンの予測を取得します。
- モデルの予測を使用して、元のノート/テキストからPHIを削除します。
📚 ドキュメント
モデルの説明
- RoBERTa [Liu et al., 2019] モデルを微調整して、医療ノートの脱識別に使用します。
- シーケンスラベリング(トークン分類): モデルは、保護された医療情報(PHI/PII)のエンティティ(スパン)を予測するように訓練されています。保護された医療情報のカテゴリのリストは、HIPAA によって提供されています。
- トークンは、非PHIまたは11種類のPHIタイプのいずれかに分類されます。トークンの予測は、BILOUタギングを使用してスパンに集約されます。
- 訓練に使用されたPHIラベルやその他の詳細は、こちらで確認できます: Annotation Guidelines
データセット
属性 |
詳情 |
モデルタイプ |
RoBERTaモデルを微調整した医療ノート脱識別モデル |
訓練データ |
I2B2 2014データセット |
PHIラベル |
訓練セット(790ノート) 件数 |
訓練セット 割合 |
テストセット(514ノート) 件数 |
テストセット 割合 |
DATE |
7502 |
43.69 |
4980 |
44.14 |
STAFF |
3149 |
18.34 |
2004 |
17.76 |
HOSP |
1437 |
8.37 |
875 |
7.76 |
AGE |
1233 |
7.18 |
764 |
6.77 |
LOC |
1206 |
7.02 |
856 |
7.59 |
PATIENT |
1316 |
7.66 |
879 |
7.79 |
PHONE |
317 |
1.85 |
217 |
1.92 |
ID |
881 |
5.13 |
625 |
5.54 |
PATORG |
124 |
0.72 |
82 |
0.73 |
EMAIL |
4 |
0.02 |
1 |
0.01 |
OTHERPHI |
2 |
0.01 |
0 |
0 |
TOTAL |
17171 |
100 |
11283 |
100 |
訓練手順
モデルの訓練手順は、こちらで確認できます: Training。"model_name_or_path" は "roberta-large" に設定されています。
- データセットは、spacyのen_core_sci_sm文分割器で文分割されます。
- データセットは、spacyのen_core_sci_smトークナイザーをベースに構築されたカスタムトークナイザーでトークン化されます。
- 各文に対して、左に32トークン(前の文から)、右に32トークン(次の文から)を追加します。
- 追加されたトークンは学習には使用されません - つまり、これらのトークンに対して損失は計算されません - 追加のコンテキストとして使用されます。
- 各シーケンスは最大128トークン(追加された32トークンを含む)を含みます。長いシーケンスは分割されます。
- 文分割され、トークン化されたデータセットと、BILOU表記に基づくトークンレベルのラベルが、モデルの訓練に使用されます。
- モデルは、事前学習されたRoBERTaモデルから微調整されます。
訓練の詳細:
- 入力シーケンスの長さ: 128
- バッチサイズ: 32(2回の勾配累積ステップで16)
- オプティマイザー: AdamW
- 学習率: 5e-5
- ドロップアウト: 0.1
🔧 技術詳細
- モデルはRoBERTaベースのシーケンスラベリングモデルで、BILOUタギングを使用してトークン予測をスパンに集約します。
- 訓練データセットの前処理には、spacyの文分割器とトークナイザーを使用し、追加のコンテキストトークンを含めることで精度を向上させています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
質問について
質問がある場合は、リポジトリ Robust DeID にGitHubのissueを投稿してください。