モデル選定

マルチモーダル医療分析

# マルチモーダル医療分析

Google.medgemma 4b It GGUF

MedGemma-4B-ITは医療分野に特化した画像テキスト生成モデルで、Googleによって開発されました。

画像生成テキスト

MedGemmaはGoogleが開発した医療専用マルチモーダルAIモデルで、Gemma 3アーキテクチャを基に、医療テキストと画像理解に特化しています。

画像生成テキスト

MedGemmaはGemma 3を最適化した医療マルチモーダルモデルシリーズで、医療テキストと画像理解のために設計され、4Bと27Bの2つのパラメータサイズバージョンを提供します。

画像生成テキスト

Dermatech Qwen2 VL 2B I1 GGUF

これはQwen2アーキテクチャに基づくマルチモーダルモデルで、テキスト生成、画像からテキストへの変換、ビジュアルQ&Aタスクに特化しています。

画像生成テキスト英語

Llama 3.2 11B Vision Radiology Mini

unsloth/Llama-3.2-11B-Vision-Instructを微調整した放射線画像補助解読モデルで、最適化により実行速度が2倍向上

画像生成テキスト

Transformers 英語

心電図（ECG）画像解読のために特別に設計されたマルチモーダル大規模言語モデル（MLLM）。多様なデータソースからのECG関連タスクを処理可能。

画像生成テキスト

Safetensors 英語

Llava Med V1.5 Mistral 7b

LLaVA-Medは、カリキュラム学習法でトレーニングされた大規模言語視覚バイオメディカルアシスタントで、生物医学分野のビジュアルQAタスクに特化しています。

テキスト生成画像

Chinese LLaVA Med 7B

LLaVA-1.5アーキテクチャに基づく中国語医療マルチモーダル大規模言語モデルで、医療分野の視覚質問応答タスクに特化しています。

テキスト生成画像

Transformers 中国語

Chexpert Mimic Cxr Impression Baseline

これは胸部X線画像に基づくテキスト生成モデルで、医学画像から放射線学的所見レポートを生成できます。

画像生成テキスト

Transformers 英語

RadLLaMA-7bはスタンフォードAIMIチームが開発した放射学領域向けの基礎言語モデルで、LLaMA2アーキテクチャを基にしています。

大規模言語モデル

Llava Roco 8bit

BabyDoctorは、CLiPとLLaMA 2の能力を統合したマルチモーダル大規模言語モデルで、テキストの理解と生成が可能であり、同時に画像も理解できます。このモデルは、X線、超音波、MRI、CTスキャンなどの放射線画像の解読に特化して微調整されています。

画像生成テキスト

Transformers 英語

RCLIPは、放射線画像分野でCLIPモデルをファインチューニングした視覚-言語モデルで、医療画像分析に最適化されています。

テキスト生成画像

Transformers 英語

Quiltnet B 16 PMB

Quilt-1M病理動画データセットで訓練されたViT-B/16視覚エンコーダーとPubMedBERTテキストエンコーダーのマルチモーダル基盤モデル

画像生成テキスト

Quilt-1M病理ビデオデータセットでトレーニングされたCLIP ViT-B/32視覚言語基盤モデルで、病理組織学分析専用に設計されています

テキスト生成画像

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase