BBS - Netオープンソースモデル - RGBと深度画像を効果的に処理し、顕著物体検出に使用

ホーム

Bbsnet

RGBD-SODによって開発

BBS-NetはRGB-D顕著物体検出のための深層学習モデルで、分岐バックボーン戦略のネットワーク構造を採用し、RGB画像と深度画像データを効果的に処理できます。

画像セグメンテーション

Transformers

オープンソースライセンス:MIT #RGB-D顕著物体検出 #デュアルブランチバックボーンネットワーク #マルチモーダル融合

ダウンロード数 21

リリース時間 : 3/13/2023

モデル概要

このモデルはRGB-D顕著物体検出タスクに特化しており、RGB画像と深度情報を融合させることで検出精度を向上させ、コンピュータビジョン分野のシーン理解アプリケーションに適しています。

モデル特徴

デュアルモーダル融合

RGB画像と深度情報を同時に処理し、顕著物体検出の精度を向上

分岐バックボーン構造

異なるモーダルデータを別々に処理する特殊なネットワークアーキテクチャを採用し、特徴を融合

エンドツーエンドトレーニング

生の入力から最終出力までの完全なトレーニングプロセスをサポート

モデル能力

RGB画像解析

深度画像処理

顕著物体検出

マルチモーダルデータ融合

使用事例

コンピュータビジョン

シーン理解

複雑なシーンで顕著な物体を識別

単一モーダル手法に比べて高い検出精度

ロボットナビゲーション

ロボットが環境中の重要な物体を識別するのを支援

🚀 モデルIDのモデルカード

このモデルは、RGB - D顕著物体検出に特化したモデルです。特定のデータセットを用いて学習され、物体の顕著性を検出する能力を備えています。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。

💻 使用例

基本的な使用法

from typing import Dict

import numpy as np
from datasets import load_dataset
from matplotlib import cm
from PIL import Image
from torch import Tensor
from transformers import AutoImageProcessor, AutoModel

model = AutoModel.from_pretrained("RGBD-SOD/bbsnet", trust_remote_code=True)
image_processor = AutoImageProcessor.from_pretrained(
    "RGBD-SOD/bbsnet", trust_remote_code=True
)
dataset = load_dataset("RGBD-SOD/test", "v1", split="train", cache_dir="data")

index = 0

"""
Get a specific sample from the dataset

sample = {
    'depth': <PIL.PngImagePlugin.PngImageFile image mode=L size=640x360>, 
    'rgb': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=640x360>, 
    'gt': <PIL.PngImagePlugin.PngImageFile image mode=L size=640x360>, 
    'name': 'COME_Train_5'
}
"""
sample = dataset[index]

depth: Image.Image = sample["depth"]
rgb: Image.Image = sample["rgb"]
gt: Image.Image = sample["gt"]
name: str = sample["name"]


"""
1. Preprocessing step

preprocessed_sample = {
    'rgb': tensor([[[[-0.8507, ....0365]]]]), 
    'gt': tensor([[[[0., 0., 0...., 0.]]]]), 
    'depth': tensor([[[[0.9529, 0....3490]]]])
}
"""
preprocessed_sample: Dict[str, Tensor] = image_processor.preprocess(sample)

"""
2. Prediction step

output = {
    'logits': tensor([[[[-5.1966, ...ackward0>)
}
"""
output: Dict[str, Tensor] = model(
    preprocessed_sample["rgb"], preprocessed_sample["depth"]
)

"""
3. Postprocessing step
"""
postprocessed_sample: np.ndarray = image_processor.postprocess(
    output["logits"], [sample["gt"].size[1], sample["gt"].size[0]]
)
prediction = Image.fromarray(np.uint8(cm.gist_earth(postprocessed_sample) * 255))

"""
Show the predicted salient map and the corresponding ground-truth(GT)
"""
prediction.show()
gt.show()

📚 ドキュメント

モデルの詳細

モデルの説明

開発者: [詳細情報が必要]
共有者 [任意]: [詳細情報が必要]
モデルタイプ: [詳細情報が必要]
言語 (NLP): [詳細情報が必要]
ライセンス: MIT
ファインチューニング元のモデル [任意]: [詳細情報が必要]

モデルのソース [任意]

リポジトリ: https://github.com/DengPingFan/BBS-Net
論文 [任意]: BBS-Net: RGB-D salient object detection with a bifurcated backbone strategy network, 2020
デモ [任意]: [詳細情報が必要]

モデルの使用方法

直接使用

上記のコード例を参考に、モデルを直接使用することができます。

下流タスクでの使用 [任意]

[詳細情報が必要]

想定外の使用

[詳細情報が必要]

バイアス、リスク、および制限事項

[詳細情報が必要]

推奨事項

ユーザー（直接利用者と下流利用者の両方）は、モデルのリスク、バイアス、および制限事項を認識する必要があります。さらなる推奨事項については、詳細情報が必要です。

モデルの使い始め方

以下のコードを使用して、モデルを使い始めることができます。 [詳細情報が必要]

学習の詳細

学習データ

[詳細情報が必要]

学習手順

前処理 [任意]

[詳細情報が必要]

学習ハイパーパラメータ

学習方式: [詳細情報が必要]

速度、サイズ、時間 [任意]

[詳細情報が必要]

評価

テストデータ、要因、および指標

テストデータ

[詳細情報が必要]

要因

[詳細情報が必要]

指標

[詳細情報が必要]

結果

[詳細情報が必要]

要約

[詳細情報が必要]

モデルの検証 [任意]

[詳細情報が必要]

環境への影響

Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して、二酸化炭素排出量を推定することができます。

ハードウェアタイプ: [詳細情報が必要]
使用時間: [詳細情報が必要]
クラウドプロバイダー: [詳細情報が必要]
コンピュートリージョン: [詳細情報が必要]
排出された二酸化炭素量: [詳細情報が必要]

技術仕様 [任意]

モデルアーキテクチャと目的

[詳細情報が必要]

コンピュートインフラストラクチャ

ハードウェア

[詳細情報が必要]

ソフトウェア

[詳細情報が必要]

引用 [任意]

BibTeX:

@inproceedings{fan2020bbs,
  title={BBS-Net: RGB-D salient object detection with a bifurcated backbone strategy network},
  author={Fan, Deng-Ping and Zhai, Yingjie and Borji, Ali and Yang, Jufeng and Shao, Ling},
  booktitle={Computer Vision--ECCV 2020: 16th European Conference, Glasgow, UK, August 23--28, 2020, Proceedings, Part XII},
  pages={275--292},
  year={2020},
  organization={Springer}
}

APA: [詳細情報が必要]