🚀 TITAN-previewモデルカード
TITAN-previewは、視覚的自己教師付き学習とビジョン・言語アライメントを用いて事前学習されたマルチモーダルな全スライド基礎モデルです。多様な下流タスクで最先端の性能を発揮します。
🚀 クイックスタート
このモデルを使用するには、Hugging Faceで事前登録し、利用規約に同意する必要があります。また、メールアドレスの設定や利用目的の説明など、いくつかの情報を提供する必要があります。
✨ 主な機能
- 多様なデータ利用:335,645枚の全スライド画像(WSIs)や182,000件以上の病理レポート、423,000件以上の合成キャプションを利用して事前学習されています。
- 高性能なスライド埋め込み:線形プロービング、フェデレーションラーニング、ゼロショット分類、希少癌検索、クロスモーダル検索、病理レポート生成などの下流タスクで高い性能を発揮します。
📦 インストール
必要なライブラリは以下の通りです。
torch==2.0.1
timm==1.0.3
einops==0.6.1
einops-exts==0.0.4
transformers==4.46.0
💻 使用例
基本的な使用法
from huggingface_hub import login
from transformers import AutoModel
login()
titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)
conch, eval_transform = titan.return_conch()
高度な使用法
import h5py
from transformers import AutoModel
titan = AutoModel.from_pretrained('MahmoodLab/TITAN', trust_remote_code=True)
h5_path = 'TCGA_demo_features/TCGA-RM-A68W-01Z-00-DX1.4E62E4F4-415C-46EB-A6C8-45BA14E82708.h5'
with h5py.File(h5_path, 'r') as file:
features = torch.from_numpy(file['features'][:])
coords = torch.from_numpy(file['coords'][:])
patch_size_lv0 = file['coords'].attrs['patch_size_level0']
with torch.autocast('cuda', torch.float16), torch.inference_mode():
slide_embedding = model.encode_slide_from_patch_features(features, coords, patch_size_lv0)
📚 ドキュメント
TITANとは?
TITAN(Transformer-based pathology Image and Text Alignment Network)は、視覚的自己教師付き学習とビジョン・言語アライメントを用いて事前学習されたマルチモーダルな全スライド基礎モデルです。Mass General Brighamで内部収集された多様な新生物、感染症、炎症症例の335,645枚の全スライド画像(WSIs)を活用しています。さらに、182,000件以上の病理レポートと、PathChat(私たちの病理コパイロット)によって生成された423,000件以上の合成キャプションを利用しています。TITANのスライド埋め込みは、線形プロービング、フェデレーションラーニング、ゼロショット分類、希少癌検索、クロスモーダル検索、病理レポート生成などの多様な下流タスクで最先端の性能を達成します。
これはプレビュー版であり、今後さらなる更新と改善を行います。
アクセス要求
ゲート付きのプロンプトで述べたように、利用規約に同意し、Hugging Faceアカウントのメインメールアドレスが所属機関のメールアドレスと一致する必要があります。メインメールアドレスが個人用メール(@gmail/@hotmail/@qq)の場合、要求は拒否されます。これを修正するには、(1) 公式の所属機関のメールアドレスをHFアカウントに追加し、メールアドレスを確認して検証する、(2) 所属機関のメールアドレスをHFアカウントのメインメールアドレスに設定することができます。アクセス要求が拒否される他の理由としては、提出されたフォームに誤りがあることが挙げられます。たとえば、氏名に略称が含まれている、所属機関が省略されていない、目的の研究用途の説明が不十分である、またはメールドメインアドレスが認識されないなどです。
モデルの説明
ライセンスと利用規約
このモデルと関連コードはCC-BY-NC-ND 4.0ライセンスの下で公開されており、適切な引用を伴った非商用の学術研究目的でのみ使用できます。TITANモデルとその派生モデル(TITANモデルの出力を使用して学習されたモデルやTITANモデルから作成されたデータセットを含む)の商用利用、販売、またはその他の収益化は禁止されており、事前の承認が必要です。モデルをダウンロードするには、Hugging Faceでの事前登録と利用規約への同意が必要です。このモデルをダウンロードすることで、モデルの配布、公開、または複製を行わないことに同意するものとします。組織内の他のユーザーがTITANモデルを使用したい場合は、個別ユーザーとして登録し、利用規約に同意する必要があります。ユーザーは、基盤となるモデルの開発に使用された匿名化されたデータを再識別しようとしてはいけません。商用企業の場合は、担当著者にご連絡ください。
お問い合わせ
追加の質問やコメントがある場合は、Faisal Mahmood (faisalmahmood@bwh.harvard.edu
)、Tong Ding (tong_ding@g.harvard.edu
)、Sophia J. Wagner (sophia.wagner@helmholtz-munich.de
)、Andrew H. Song (asong@bwh.harvard.edu
)、またはRichard J. Chen (richardchen@g.harvard.edu
) にお問い合わせください。
謝辞
このプロジェクトは、ViT、iBOT、OpenClip、LGSSL、およびTimm(ViTモデルの実装)などの素晴らしいリポジトリをベースに構築されています。著者や開発者の皆様に感謝いたします。
BibTeX
もしあなたの研究で私たちの成果が役に立った場合は、以下のように引用していただけると幸いです。
Ding, T.*, Wagner S.J.*, Song, A.H.*, Chen, R.J.* et al. Multimodal Whole Slide Foundation Model for Pathology, Arxiv, 2024
@misc{ding2024multimodalslidefoundationmodel,
title={Multimodal Whole Slide Foundation Model for Pathology},
author={Tong Ding and Sophia J. Wagner and Andrew H. Song and Richard J. Chen and Ming Y. Lu and Andrew Zhang and Anurag J. Vaidya and Guillaume Jaume and Muhammad Shaban and Ahrong Kim and Drew F. K. Williamson and Bowen Chen and Cristina Almagro-Perez and Paul Doucet and Sharifa Sahai and Chengkuan Chen and Daisuke Komura and Akihiro Kawabe and Shumpei Ishikawa and Georg Gerber and Tingying Peng and Long Phi Le and Faisal Mahmood},
year={2024},
eprint={2411.19666},
archivePrefix={arXiv},
primaryClass={eess.IV},
url={https://arxiv.org/abs/2411.19666},
}
⚠️ 重要提示
このモデルはCC-BY-NC-ND 4.0ライセンスの下で公開されており、商用利用は禁止されています。詳細はライセンスと利用規約のセクションをご確認ください。
💡 使用建议
モデルを使用する前に、アクセス要求の手順を正しく行い、メールアドレスの設定や利用目的の説明などを正確に入力してください。また、提供されているサンプルコードを参考にして、スライドレベルの特徴抽出や分類などのタスクを行ってみてください。