🚀 大規模食品画像セグメンテーションベンチマーク
本プロジェクトは、食品画像のセグメンテーションに特化した大規模ベンチマークを提供します。新しい食品画像データセットFoodSeg103を構築し、多モダリティ事前学習アプローチReLeMを提案することで、細粒度な食品画像理解の研究を促進します。
🚀 クイックスタート
このソフトウェアは、食品画像セグメンテーションのための新しいデータセットと事前学習モデルを提供します。以下の手順に従って、セットアップと使用を開始できます。
✨ 主な機能
- 7,118枚の画像を含む新しい食品画像データセットFoodSeg103を構築。
- 104の食材クラスで画像をアノテーションし、各画像には平均6つの食材ラベルとピクセル単位のマスクが付与。
- 多モダリティ事前学習アプローチReLeMを提案し、セグメンテーションモデルに豊富な食品知識を付与。
- 3つの人気のあるセマンティックセグメンテーション方法をベースラインとして評価。
📦 インストール
インストールについては、get_started.mdを参照してください。
💻 使用例
基本的な使用法
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 --master_port=${PORT:-300} tools/train.py --config [config] --work-dir [work-dir] --launcher pytorch
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 --master_port=${PORT:-300} tools/train.py --config configs/foodnet/SETR_Naive_768x768_80k_base_RM.py --work-dir checkpoints/SETR_Naive_ReLeM --launcher pytorch
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 --master_port=${PORT:-999} tools/test.py [config] [weights] --launcher pytorch --eval mIoU
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 --master_port=${PORT:-999} tools/test.py checkpoints/SETR_Naive_ReLeM/SETR_Naive_768x768_80k_base_RM.py checkpoints/SETR_Naive_ReLeM/iter_80000.pth --launcher pytorch --eval mIoU
高度な使用法
高度な使用法やカスタマイズについては、公式ドキュメントを参照してください。
📚 ドキュメント
データセット
データセットはこちらからダウンロードできます。データを./dataフォルダ (./data/FoodSeg103/) に解凍してください。パスワードはLARCdataset9947です。
リーダーボード
リーダーボードについては、こちらを参照してください。
ベンチマークとモデルズー
以下は、各モデルの評価結果とダウンロードリンクです。
ReLeM
ReLeMは、im2recipeの実装を一部変更して、Recipe1M+データセット(FoodSeg103のテスト画像を除く)で学習しました。データサイズが大きいため(>35G)、lmdbファイルは後でアップロードする予定です。
ReLeM ViT-Baseモデルを8枚のTesla-V100カードで学習するには、約2~3週間かかります。事前学習済みモデルをこちらからダウンロードすることをおすすめします。
🔧 技術詳細
本プロジェクトでは、3つの人気のあるセマンティックセグメンテーション方法(Dilated Convolution based、Feature Pyramid based、Vision Transformer based)をベースラインとして使用し、新しいデータセットで評価しました。また、多モダリティ事前学習アプローチReLeMを提案し、セグメンテーションモデルに豊富な食品知識を付与しました。
📄 ライセンス
このプロジェクトは、Apache 2.0 licenseの下で公開されています。
引用
もしこのプロジェクトがあなたの研究に役立った場合、以下の文献を引用してください。
@inproceedings{wu2021foodseg,
title={A Large-Scale Benchmark for Food Image Segmentation},
author={Wu, Xiongwei and Fu, Xin and Liu, Ying and Lim, Ee-Peng and Hoi, Steven CH and Sun, Qianru},
booktitle={Proceedings of ACM international conference on Multimedia},
year={2021}
}
その他の問題
ソフトウェアの使用中に他の問題が発生した場合は、元のmmsegmentationのドキュメント(こちら)を参照してください。
謝辞
本プロジェクトのセグメンテーションソフトウェアは、segmentationを拡張して開発されました。