MedCSP_clipオープンソース医学画像分類モデル - 無料でゼロショット医学画像の高精度分類を実現

ホーム

Medcsp Clip

xcwangpsuによって開発

CLIPアーキテクチャに基づく医療分野向けゼロショット画像分類モデル

テキスト生成画像オープンソースライセンス:MIT #医療画像分類 #ゼロショット学習 #マルチモーダル理解

ダウンロード数 91

リリース時間 : 9/10/2024

モデル概要

このモデルはOpenAI CLIPアーキテクチャの変種で、医療画像分類タスク向けに最適化されています。特定タスクのトレーニングなしで新しいカテゴリを分類できるゼロショット画像分類が可能です。

モデル特徴

医療分野最適化

医療画像の特性に特化して最適化されており、医用画像データの処理に適しています

ゼロショット学習

特定タスクのトレーニングなしで新しいカテゴリを分類可能

マルチモーダル理解

画像とテキスト情報を同時に理解し、視覚-言語関連付けを構築できます

モデル能力

医療画像分類

クロスモーダル検索

ゼロショット学習

使用事例

医用画像解析

医用画像分類

X線、CTなどの医用画像を分類・識別

病理画像分析

病理スライド中の異常組織を識別

医学研究

医用画像検索

テキスト記述に基づき関連医用画像を検索

🚀 MedCSP_clipのモデルカード

このモデルは、CLIPを用いたゼロショット画像分類に特化しています。CLIPを使って画像やテキストをエンコードすることができ、医療画像の分析などに役立ちます。

🚀 クイックスタート

以下は、CLIPを使ってエンコードするデモです。

基本的な使用法

from open_clip import create_model_from_pretrained, get_tokenizer
import torch
from urllib.request import urlopen
from PIL import Image

# import model, processor and tokenizer
model, processor = create_model_from_pretrained('hf-hub:xcwangpsu/MedCSP_clip')
tokenizer = get_tokenizer('hf-hub:xcwangpsu/MedCSP_clip')

# encode image:

# import raw radiological image:
image = Image.open(urlopen("https://huggingface.co/xcwangpsu/MedCSP_clip/resolve/main/image_sample.jpg"))

# preprocess the image, the final tensor should have 4 dimensions (B, C, H, W)
processed_image = processor(image)
processed_image = torch.unsqueeze(processed_image, 0)
print("Input size:", processed_image.shape)

# encode to a single embedding
image_embedding = model.encode_image(processed_image)
print("Individual image embedding size:",image_embedding.shape)

# sequential encoding
seq_image_embedding = model.visual.trunk.forward_features(processed_image)
print("Sequential image embedding size:",seq_image_embedding.shape)

# encode text:

text = "Chest X-ray reveals increased lung opacity, indicating potential fluid buildup or infection."
tokens = tokenizer(text)

# encode to a single embedding
text_embedding = model.encode_text(tokens)
print("Individual text embedding size:",text_embedding.shape)

# sequential encoding
seq_text_embedding = model.text.transformer(tokens, output_hidden_states=True).hidden_states[-1]
print("Sequential text embedding size:", seq_text_embedding.shape)

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

謝辞

このリポジトリや論文で提供されている情報が役立った場合は、以下のBibTexを使って論文を引用してください。

@inproceedings{wang2024unity,
  title={Unity in Diversity: Collaborative Pre-training Across Multimodal Medical Sources},
  author={Wang, Xiaochen and Luo, Junyu and Wang, Jiaqi and Zhong, Yuan and Zhang, Xiaokun and Wang, Yaqing and Bhatia, Parminder and Xiao, Cao and Ma, Fenglong},
  booktitle={Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
  pages={3644--3656},
  year={2024}
}