M3D-LaMed-Llama-2-7Bオープンソースモデル - 3D医学画像解析を支援する実用的な選択肢

ホーム

M3D LaMed Llama 2 7B

GoodBaiBai88によって開発

M3Dはマルチモーダル大規模言語モデルに基づく3D医療画像解析技術で、M3D-Dataデータセット、M3D-LaMedモデル、M3D-Bench評価基準を含みます。

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #3D医療画像解析 #マルチモーダル大規模言語モデル #医療レポート生成

ダウンロード数 209

リリース時間 : 4/27/2024

モデル概要

M3D-LaMedはM3D-CLIP事前学習視覚エンコーダーを搭載した多機能マルチモーダルモデルで、画像テキスト検索、レポート生成、視覚的質問応答、位置特定とセグメンテーションなどのタスクをサポートします。

モデル特徴

マルチモーダル3D医療画像解析

3D医療画像データの処理をサポートし、マルチモーダル医療画像解析を実現

多機能タスクサポート

画像テキスト検索、レポート生成、視覚的質問応答、位置特定とセグメンテーションなど多様なタスクを実行可能

大規模事前学習データ

M3D-Dataデータセットに基づいて訓練され、12万の画像テキストペアと66.2万の命令-応答ペアを含む

モデル能力

3D医療画像解析

医療レポート生成

視覚的質問応答

臓器セグメンテーション

バウンディングボックス注釈

画像テキスト検索

使用事例

医療画像診断

肝臓領域セグメンテーション

3D医療画像内の肝臓領域を識別し分割

セグメンテーションマスクを出力

医療レポート生成

3D医療画像に基づき検査所見の記述テキストを自動生成

自然言語レポートを生成

医療画像分析

臓器位置特定

画像内の特定臓器のバウンディングボックスを注釈

バウンディングボックス座標を出力

医療画像質問応答

3D医療画像内容に関する専門的な質問に回答

正確な医学的説明を提供

🚀 M3D: 多モーダル大規模言語モデルによる3D医療画像解析の進化

M3Dは、3D医療解析用の多モーダル大規模言語モデルに関する先駆的かつ包括的な一連の研究です。以下の要素を含んでいます。

M3D-Data：最大規模のオープンソース3D医療データセットで、120Kの画像-テキストペアと662Kの命令-応答ペアから構成されています。
M3D-LaMed：M3D-CLIPで事前学習されたビジョンエンコーダを備えた汎用的な多モーダルモデルで、画像-テキスト検索、レポート生成、ビジュアル質問応答、位置特定、セグメンテーションなどのタスクを実行できます。
M3D-Bench：8つのタスクをカバーする最も包括的な自動評価ベンチマークです。

論文 | データ | コード

🚀 クイックスタート

ここでは、Hugging Faceをベースにして簡単にモデルを使用することができます。

import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import simple_slice_viewer as ssv
import SimpleITK as sikt

device = torch.device('cuda') # 'cpu', 'cuda'
dtype = torch.bfloat16 # or bfloat16, float16, float32

model_name_or_path = 'GoodBaiBai88/M3D-LaMed-Llama-2-7B'
proj_out_num = 256

# 3D医療画像を準備する:
# 1. 画像の形状を1*32*256*256に処理する必要があります。リサイズなどの方法を検討してください。
# 2. 画像を0-1に正規化する必要があります。最小-最大正規化を検討してください。
# 3. 画像形式を.npyに変換する必要があります。
# 4. 2D画像で学習していませんが、理論的には2D画像を1*32*256*256の形状に補間して入力することができます。
image_path = "./Data/data/examples/example_01.npy"

model = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    torch_dtype=dtype,
    device_map='auto',
    trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(
    model_name_or_path,
    model_max_length=512,
    padding_side="right",
    use_fast=False,
    trust_remote_code=True
)

model = model.to(device=device)

# question = "Can you provide a caption consists of findings for this medical image?"
question = "What is liver in this image? Please output the segmentation mask."
# question = "What is liver in this image? Please output the box."

image_tokens = "<im_patch>" * proj_out_num
input_txt = image_tokens + question
input_id = tokenizer(input_txt, return_tensors="pt")['input_ids'].to(device=device)

image_np = np.load(image_path)
image_pt = torch.from_numpy(image_np).unsqueeze(0).to(dtype=dtype, device=device)

# generation = model.generate(image_pt, input_id, max_new_tokens=256, do_sample=True, top_p=0.9, temperature=1.0)
generation, seg_logit = model.generate(image_pt, input_id, seg_enable=True, max_new_tokens=256, do_sample=True, top_p=0.9, temperature=1.0)

generated_texts = tokenizer.batch_decode(generation, skip_special_tokens=True)
seg_mask = (torch.sigmoid(seg_logit) > 0.5) * 1.0

print('question', question)
print('generated_texts', generated_texts[0])

image = sikt.GetImageFromArray(image_np)
ssv.display(image)
seg = sikt.GetImageFromArray(seg_mask.cpu().numpy()[0])
ssv.display(seg)