🚀 MONET (Medical cONcept rETriever)
MONETは、医学文献から収集した105,550枚の皮膚科画像と自然言語の説明をペアにして学習させたCLIP ViT - L/14のビジョン言語基礎モデルです。このモデルは、皮膚科医によって検証されるように、皮膚科画像の概念を正確に注釈付けすることができ、臨床画像の皮膚科データセットに基づく教師ありモデルと競合する性能を発揮します。また、MONETは、本質的に解釈可能なモデルの構築からデータセットとモデルの監査まで、AIシステム開発の全パイプラインにわたってAIの透明性を実現します。
🚀 クイックスタート
MONETは、医学文献に基づいた画像 - テキストの基礎モデルを通じて、透明な医療画像AIを実現します。以下のリンクから論文やGitHubリポジトリを参照できます。
✨ 主な機能
- 皮膚科画像の概念を正確に注釈付けすることができます。
- AIシステム開発の全パイプラインにわたってAIの透明性を実現します。
📚 ドキュメント
引用
@article{kim2024transparent,
title={Transparent medical image AI via an image–text foundation model grounded in
medical literature},
author={Chanwoo Kim and Soham U. Gadgil and Alex J. DeGrave and Jesutofunmi A. Omiye and Zhuo Ran Cai and Roxana Daneshjou and Su-In Lee},
journal={Nature Medicine},
year={2024},
doi={10.1038/s41591-024-02887-x},
url={https://doi.org/10.1038/s41591-024-02887-x}
}
免責事項: このモデルカードは、公式のCLIPリポジトリから取得して修正したものです。こちらで確認できます。
モデルの詳細
CLIPモデルは、コンピュータビジョンタスクのロバスト性に寄与する要素を研究するためにOpenAIの研究者によって開発されました。また、モデルがゼロショットで任意の画像分類タスクに一般化する能力をテストするためにも開発されました。このモデルは、一般的なモデルのデプロイを目的として開発されたものではありません。CLIPのようなモデルをデプロイするには、研究者はまず、デプロイする特定のコンテキストに関連するモデルの能力を慎重に研究する必要があります。
モデルの種類
ベースモデルは、画像エンコーダとしてViT - L/14 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスク自己注意Transformerを使用しています。これらのエンコーダは、対照損失を通じて(画像、テキスト)ペアの類似性を最大化するように学習されます。
元の実装には2つのバリエーションがありました。1つはResNet画像エンコーダを使用したもので、もう1つはVision Transformerを使用したものです。このリポジトリには、Vision Transformerを使用したバリエーションが含まれています。
モデルの使用
意図された使用方法
このモデルは、研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショット、任意の画像分類をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも使用できることを期待しています。CLIPの論文には、このような分析の例として、潜在的な下流の影響に関する議論が含まれています。
主な意図されたユーザー
これらのモデルの主な意図されたユーザーは、AI研究者です。
主に、研究者がコンピュータビジョンモデルのロバスト性、汎化能力、その他の機能、バイアス、制約をよりよく理解するためにこのモデルを使用することを想定しています。
想定外の使用例
いかなるモデルのデプロイされた使用例(商用または非商用)も、現在想定外です。制約された環境での画像検索などの非デプロイの使用例も、特定の固定クラス分類体系でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、私たちの安全性評価が、特にCLIPの性能が異なるクラス分類体系で変動することを考慮すると、タスク固有のテストが非常に必要であることを示しているためです。このため、現在、未テストかつ制約のないモデルのデプロイは、いかなる使用例においても潜在的に有害です。
監視や顔認識の分野に該当する特定の使用例は、モデルの性能に関係なく、常に想定外です。これは、このようなタスクに人工知能を使用することは、現在、公平な使用を保証するためのテスト基準やチェックが不足しているため、時期尚早である可能性があるためです。
このモデルは、英語以外の言語で意図的に学習または評価されていないため、その使用は英語の使用例に限定する必要があります。
属性 |
详情 |
モデルタイプ |
ベースモデルは、画像エンコーダとしてViT - L/14 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスク自己注意Transformerを使用しています。これらのエンコーダは、対照損失を通じて(画像、テキスト)ペアの類似性を最大化するように学習されます。 |
学習データ |
医学文献から収集した105,550枚の皮膚科画像と自然言語の説明をペアにしたデータ |