QuiltNet-B-16-PMBオープンソースマルチモーダル基礎モデル - 病理ビデオと医療テキストの深度分析を支援

ホーム

Quiltnet B 16 PMB

wisdomikによって開発

Quilt-1M病理動画データセットで訓練されたViT-B/16視覚エンコーダーとPubMedBERTテキストエンコーダーのマルチモーダル基盤モデル

画像生成テキストオープンソースライセンス:MIT #病理ゼロショット分類 #マルチモーダル医療分析 #CLIPアーキテクチャ最適化

ダウンロード数 513

リリース時間 : 6/20/2023

モデル概要

ゼロショット画像分類、画像テキスト検索などのタスク向けの視覚言語モデル。特に病理組織画像に最適化

モデル特徴

病理画像専用

病理組織画像に特化して訓練され、医療画像分類タスクで優れた性能を発揮

ゼロショット分類能力

微調整なしで新規カテゴリの画像分類が可能

マルチモーダル理解

画像とテキスト情報を同時に理解し、クロスモーダル検索タスクをサポート

モデル能力

ゼロショット画像分類

病理画像分析

画像テキストクロスモーダル検索

組織表現型認識

使用事例

医療診断支援

組織表現型分析

病理スライド中の脂肪組織、壊死組織など異なるタイプの組織を識別

がん病理分類

腺がんと扁平上皮がんなど異なるタイプのがん病理スライドを区別

医学研究

病理画像検索

テキスト記述に基づき関連病理画像を検索

🚀 QuiltNet-B-16-PMBの説明

QuiltNet-B-32/PMB は、ViT-B/16画像タワーとPubMedBERTテキストタワーを持つビジョン・言語基礎モデルで、代表的な病理組織学ビデオから選りすぐった Quilt-1M データセットで学習されています。

このモデルは、クロスモーダル検索、画像分類、視覚的質問応答など、様々なビジョン・言語処理（VLP）タスクを実行できます。QuiltNetは、幅広い標準データセットで新たな最先端技術を確立し、従来のVLPアプローチを大幅に上回っています。

🚀 クイックスタート

このセクションでは、QuiltNet-B-16-PMBモデルの概要とその用途について説明します。

✨ 主な機能

様々なビジョン・言語処理（VLP）タスクを実行できます。
クロスモーダル検索、画像分類、視覚的質問応答などのタスクに対応しています。
幅広い標準データセットで新たな最先端技術を確立しています。

📚 ドキュメント

引用

@misc{ikezogwo2023quilt1m,
      title={Quilt-1M: One Million Image-Text Pairs for Histopathology}, 
      author={Wisdom Oluchi Ikezogwo and Mehmet Saygin Seyfioglu and Fatemeh Ghezloo and Dylan Stefan Chan Geva and Fatwir Sheikh Mohammed and Pavan Kumar Anand and Ranjay Krishna and Linda Shapiro},
      year={2023},
      eprint={2306.11207},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

使用方法

元の OpenAI CLIPモデルカードによると、このモデルは研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショット、任意の画像分類をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的研究にも役立つことを期待しています。

OpenAI CLIP論文には、このような分析の例として、潜在的な下流の影響に関する議論が含まれています。

直接的な使用

ゼロショット画像分類、画像とテキストの検索など。

下流の使用

画像分類やその他の画像タスクの微調整、線形プローブ画像分類、画像生成のガイドや条件付けなど。

意図された使用

このモデルは研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショット、任意の画像分類をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的研究にも役立つことを期待しています。

主な意図された使用

これらのモデルの主な意図されたユーザーはAI研究者です。

主に、研究者がコンピュータビジョン病理組織学モデルのロバスト性、汎化性、その他の機能、バイアス、制約をよりよく理解するためにこのモデルを使用することを想定しています。

想定外の使用例

このモデルの 任意の 展開された使用例（商用であるかどうかを問わない）は、現在想定外です。制約された環境での画像検索などの非展開の使用例も、特定の固定クラス分類法でモデルの十分なドメイン内テストが行われない限り、推奨されません。

このモデルは英語以外の言語での学習や評価が意図的に行われていないため、その使用は英語の使用例に限定されるべきです。

上記の注意事項に加え、これらのモデルの学習に使用されるQuilt-1Mデータセットには、追加の考慮事項があります。詳細は以下を参照してください。

学習データ

このモデルは、QUILT-1M という病理組織学用の画像テキストデータセットで学習されています。

Youtubeの教育用ビデオから選りすぐられたQUILT-1Mは、病理組織学におけるビジョン言語モデリングのための最大のデータセットを提供します。

⚠️ 重要提示

データセット作成の背後にある動機は、大規模なマルチモーダルモデルの学習と、公開されているインターネットからクロールされた未加工の大規模病理組織学データセットの取り扱いに関する研究と実験を民主化することです。したがって、このデータセットは研究目的で使用することをおすすめします。

評価

CLIP Benchmarkスイートのコードを使用して評価が行われ、結果は様々な組織学タスクとデータセットに関する論文に記載されています。

免責事項

この関数から得られる結果は、医療アドバイスを構成することを意図しておらず、資格のある医療専門家との相談を代替するものではないことに注意することが重要です。この関数の使用は、完全にあなた自身の責任で行われ、適用される法律、規制、倫理的考慮事項に準拠する必要があります。我々は、この関数の特定の目的に対する正確性、完全性、適合性、有用性を保証または保証しないものとし、この関数に依存することまたはその使用から得られる結果に起因する一切の責任を否認します。