🚀 ConceptCLIP
ConceptCLIPは、多様な医療画像モダリティに対応した、医療概念を強化した大規模なビジョン・言語事前学習モデルです。概念強化による言語と画像のアライメントにより、複数の医療画像タスクで堅牢な性能を発揮します。
🚀 クイックスタート
from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image
model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]
inputs = processor(
images=image,
text=texts,
return_tensors='pt',
padding=True,
truncation=True
).to(model.device)
with torch.no_grad():
outputs = model(**inputs)
logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]
print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})
✨ 主な機能
- ゼロショット医療画像分類
- クロスモーダル検索
- ゼロショット概念アノテーション
- 全スライド画像解析のための特徴抽出
- 医療レポート生成のための特徴抽出
📦 インストール
コード例を実行するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModel, AutoProcessor
import torch
from PIL import Image
model = AutoModel.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
processor = AutoProcessor.from_pretrained('JerrryNie/ConceptCLIP', trust_remote_code=True)
image = Image.open('example_data/chest_X-ray.jpg').convert('RGB')
labels = ['chest X-ray', 'brain MRI', 'skin lesion']
texts = [f'a medical image of {label}' for label in labels]
inputs = processor(
images=image,
text=texts,
return_tensors='pt',
padding=True,
truncation=True
).to(model.device)
with torch.no_grad():
outputs = model(**inputs)
logits = (outputs['logit_scale'] * outputs['image_features'] @ outputs['text_features'].t()).softmax(dim=-1)[0]
print({label: f"{prob:.2%}" for label, prob in zip(labels, logits)})
📚 ドキュメント
モデルの詳細
モデルの説明
- 開発者: Yuxiang Nie, Sunan He, Yequan Bie, Yihui Wang, Zhixuan Chen, Shu Yang, Zhiyuan Cai, Hongmei Wang, Xi Wang, Luyang Luo, Mingxiang Wu, Xian Wu, Ronald Cheong Kin Chan, Yuk Ming Lau, Yefeng Zheng, Pranav Rajpurkar, Hao Chen
- モデルの種類: ビジョン・言語事前学習モデル (医療専用)
- 言語: 英語 (テキスト), マルチモーダル (医療画像)
- ライセンス: MIT
- ファインチューニング元のモデル: OpenCLIP
モデルのソース
用途
直接的な用途
- ゼロショット医療画像分類
- クロスモーダル検索
- ゼロショット概念アノテーション
- 全スライド画像解析のための特徴抽出
- 医療レポート生成のための特徴抽出
下流の用途
- 特定の医療画像タスク (CT、MRI、X線解析) のためのファインチューニング (分類、ビジュアル質問応答)
- 説明可能な概念ボトルネックモデル
- 臨床決定支援システムへの統合
- 医療教育とトレーニングツール
想定外の用途
- 臨床検証なしの直接的な臨床診断
- 非医療画像解析
- 医療ドメイン外の一般的なビジョンタスク
バイアス、リスク、制限事項
- 主に医療画像データで学習されており、人口統計学的なバイアスが含まれる可能性があります。
- 性能は異なる医療画像モダリティによって異なる場合があります。
- 人間の監視なしに単独の診断ツールとして使用すべきではありません。
推奨事項
- 医療決定を行う前に、臨床専門家による出力の検証を行ってください。
- 特定のドメインのデータでファインチューニングを行ってください。
- 新しい臨床環境に展開する際には、バイアス分析を行ってください。
学習の詳細
学習データ
学習手順
- 医療概念を統合したOpenCLIPアーキテクチャをベースに構築
- 画像-テキストアライメント (IT-Align) と領域-概念アライメント (RC-Align) の目的で事前学習
学習ハイパーパラメータ
- 基本アーキテクチャ: SigLIP-ViT-400M-16 + PubMedBERT
- 学習方式: 混合精度学習
- バッチサイズ: 12,288 (PC-Alignなし), 6,144 (PC-Alignあり)
- 学習率: 5e-4 (PC-Alignなし), 3e-4 (PC-Alignあり)
評価
テストデータとメトリクス
- 複数のオープンソースの医療画像ベンチマークで評価されています。これには、医療画像診断、クロスモーダル検索、医療ビジュアル質問応答、医療レポート生成、全スライド画像解析、および説明可能なAIが含まれます。
🔧 技術詳細
モデルは、医療概念を統合したOpenCLIPアーキテクチャをベースに構築されています。画像-テキストアライメント (IT-Align) と領域-概念アライメント (RC-Align) の目的で事前学習されています。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
引用
BibTeX:
@article{nie2025conceptclip,
title={An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training},
author={Nie, Yuxiang and He, Sunan and Bie, Yequan and Wang, Yihui and Chen, Zhixuan and Yang, Shu and Cai, Zhiyuan and Wang, Hongmei and Wang, Xi and Luo, Luyang and Wu, Mingxiang and Wu, Xian and Chan, Ronald Cheong Kin and Lau, Yuk Ming and Zheng, Yefeng and Rajpurkar, Pranav and Chen, Hao},
journal={arXiv preprint arXiv:2501.15579},
year={2025}
}
APA:
Nie, Y., He, S., Bie, Y., Wang, Y., Chen, Z., Yang, S., Cai, Z., Wang, H., Wang, X., Luo, L., Wu, M., Wu, X., Chan, R. C. K., Lau, Y. M., Zheng, Y., Rajpurkar, P., & Chen, H. (2025). An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training. arXiv preprint arXiv:2501.15579.
モデルカードの問い合わせ先
Yuxiang Nie: ynieae@connect.ust.hk