BiRefNetオープンソース画像分割モデル - 双方向参照メカニズムによる高解像度画像の高精度分割

ホーム

Birefnet

not-lainによって開発

BiRefNetは高解像度二分画像分割のための深層学習モデルで、双方向参照メカニズムにより精密な画像分割を実現します。

画像セグメンテーション

Safetensors

オープンソースライセンス:MIT #高解像度画像分割 #双方向参照ネットワーク #擬装物体検出

ダウンロード数 15

リリース時間 : 12/5/2024

モデル概要

BiRefNetは高解像度二分画像分割専用に設計された深層学習モデルで、背景除去、マスク生成、擬装物体検出、顕著物体検出など多様なタスクをサポートします。

モデル特徴

高解像度処理

高解像度画像の分割処理をサポートし、多様な複雑なシーンに適用可能です。

双方向参照メカニズム

双方向参照メカニズムにより分割精度を向上させ、特に複雑な背景条件下で優れた性能を発揮します。

マルチタスクサポート

背景除去、マスク生成、擬装物体検出、顕著物体検出など多様なタスクをサポートします。

モデル能力

画像分割

背景除去

マスク生成

擬装物体検出

顕著物体検出

使用事例

画像処理

背景除去

画像から前景と背景を精密に分離します。

高品質な透明背景画像を生成します。

擬装物体検出

画像中の擬装または隠蔽された物体を検出・分割します。

複雑な背景条件下でも物体を正確に識別します。

コンピュータビジョン

顕著物体検出

画像中最も顕著な物体領域を識別します。

顕著物体のヒートマップまたはマスクを生成します。

🚀 Bilateral Reference for High-Resolution Dichotomous Image Segmentation

この研究は、高解像度の二値画像セグメンテーションにおける双方向参照手法を提案し、DIS、HRSOD、CODの3つのタスクでSOTA性能を達成しました。

🚀 クイックスタート

このリポジトリは、論文 "Bilateral Reference for High-Resolution Dichotomous Image Segmentation" (CAAI AIR 2024) の公式実装です。詳細（コード、ドキュメント、モデルズー）については、GitHubリポジトリ https://github.com/ZhengPeng7/BiRefNet をご覧ください。

✨ 主な機能

高解像度の二値画像セグメンテーションに特化した手法
DIS、HRSOD、CODの3つのタスクでSOTA性能を達成
オンラインデモによる簡単な推論体験

📦 インストール

0. パッケージのインストール

pip install -qr https://raw.githubusercontent.com/ZhengPeng7/BiRefNet/main/requirements.txt

💻 使用例

基本的な使用法

HuggingFaceからコードと重みを使用

# Load BiRefNet with weights
from transformers import AutoModelForImageSegmentation
birefnet = AutoModelForImageSegmentation.from_pretrained('ZhengPeng7/BiRefNet', trust_remote_code=True)

GitHubからコード、HuggingFaceから重みを使用

# Download codes
git clone https://github.com/ZhengPeng7/BiRefNet.git
cd BiRefNet

# Use codes locally
from models.birefnet import BiRefNet

# Load weights from Hugging Face Models
birefnet = BiRefNet.from_pretrained('ZhengPeng7/BiRefNet')

GitHubからコード、ローカルから重みを使用

# Use codes and weights locally
import torch
from utils import check_state_dict

birefnet = BiRefNet(bb_pretrained=False)
state_dict = torch.load(PATH_TO_WEIGHT, map_location='cpu')
state_dict = check_state_dict(state_dict)
birefnet.load_state_dict(state_dict)

読み込んだBiRefNetを推論に使用

# Imports
from PIL import Image
import matplotlib.pyplot as plt
import torch
from torchvision import transforms
from models.birefnet import BiRefNet

birefnet = ... # -- BiRefNet should be loaded with codes above, either way.
torch.set_float32_matmul_precision(['high', 'highest'][0])
birefnet.to('cuda')
birefnet.eval()

def extract_object(birefnet, imagepath):
    # Data settings
    image_size = (1024, 1024)
    transform_image = transforms.Compose([
        transforms.Resize(image_size),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ])

    image = Image.open(imagepath)
    input_images = transform_image(image).unsqueeze(0).to('cuda')

    # Prediction
    with torch.no_grad():
        preds = birefnet(input_images)[-1].sigmoid().cpu()
    pred = preds[0].squeeze()
    pred_pil = transforms.ToPILImage()(pred)
    mask = pred_pil.resize(image.size)
    image.putalpha(mask)
    return image, mask

# Visualization
plt.axis("off")
plt.imshow(extract_object(birefnet, imagepath='PATH-TO-YOUR_IMAGE.jpg')[0])
plt.show()

高度な使用法

このBiRefNetは、標準的な二値画像セグメンテーション（DIS）に使用され、DIS-TR で訓練され、DIS-TEsおよびDIS-VD で検証されています。

📚 ドキュメント

このリポジトリには、論文で提案されたBiRefNetの重みが含まれています。このモデルは、3つのタスク（DIS、HRSOD、COD）でSOTA性能を達成しています。

オンラインデモでの推論の試し方

Colabでのオンライン 画像推論：
Hugging Faceでの GUI付きオンライン推論（解像度調整可能）：
与えられた重みの 推論と評価：

🔧 技術詳細

論文で提案されたBiRefNetは、高解像度の二値画像セグメンテーションにおける双方向参照手法を用いており、DIS、HRSOD、CODの3つのタスクでSOTA性能を達成しました。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。詳細は LICENSE をご覧ください。

謝辞

@fal 様には、より良いBiRefNetモデルを訓練するためのGPUリソースを提供していただき、厚く御礼申し上げます。
@not-lain 様には、HuggingFaceでのBiRefNetモデルのより良いデプロイにご協力いただき、感謝いたします。

引用

@article{BiRefNet,
  title={Bilateral Reference for High-Resolution Dichotomous Image Segmentation},
  author={Zheng, Peng and Gao, Dehong and Fan, Deng-Ping and Liu, Li and Laaksonen, Jorma and Ouyang, Wanli and Sebe, Nicu},
  journal={CAAI Artificial Intelligence Research},
  year={2024}
}