Ijepa Vith16 1k_分類| AIbase模型庫

首頁

Ijepa Vith16 1k

由facebook開發

I-JEPA是一種自監督學習方法，通過圖像部分表徵預測同一圖像其他部分的表徵，無需依賴預設的手工數據變換或像素級細節填充。

圖像分類

Transformers

#自監督學習 #圖像表徵預測 #高級語義建模

下載量 153

發布時間 : 8/26/2024

模型概述

I-JEPA採用潛在空間預測器作為基礎世界模型，能夠通過部分可觀測上下文對靜態圖像中的空間不確定性建模，專注於預測高級信息而非像素級細節。

模型特點

自監督學習

不依賴預設的手工數據變換不變性，避免對特定下游任務的偏見

潛在空間預測

採用潛在空間預測器而非像素解碼器，專注於高級語義信息而非像素級細節

世界模型

可作為基礎世界模型，通過部分可觀測上下文對靜態圖像中的空間不確定性建模

模型能力

圖像特徵提取

語義表徵學習

使用案例

計算機視覺

圖像分類

使用提取的特徵進行圖像分類任務

特徵提取

提取圖像的高級語義特徵用於下游任務

🚀 I-JEPA模型（Huge，在IN1K上微調）

I-JEPA 是一種用於自監督學習的方法。從高層次來看，I-JEPA 可以根據同一圖像其他部分的表示來預測該圖像某一部分的表示：

不依賴於預先指定的、針對手工數據變換的不變性，因為這些不變性往往會對特定的下游任務產生偏差；
也無需模型填充像素級細節，因為這往往會導致學習到的表示在語義上缺乏意義。

ijepa

🚀 快速開始

I-JEPA 是一種自監督學習方法，能夠根據圖像部分區域的表示預測其他區域的表示，避免了傳統方法的一些弊端。以下是使用該模型進行圖像特徵提取的示例：

import requests
from PIL import Image
from torch.nn.functional import cosine_similarity

from transformers import AutoModel, AutoProcessor

url_1 = "http://images.cocodataset.org/val2017/000000039769.jpg"
url_2 = "http://images.cocodataset.org/val2017/000000219578.jpg"
image_1 = Image.open(requests.get(url_1, stream=True).raw)
image_2 = Image.open(requests.get(url_2, stream=True).raw)

model_id = "jmtzt/ijepa_vith16_1k"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModel.from_pretrained(model_id)


def infer(image):
    inputs = processor(image, return_tensors="pt")
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1)


embed_1 = infer(image_1)
embed_2 = infer(image_2)

similarity = cosine_similarity(embed_1, embed_2)
print(similarity)

✨ 主要特性

自監督學習：I-JEPA 是一種自監督學習方法，不依賴於預先指定的不變性和像素級細節填充，避免了傳統方法的一些侷限性。
語義預測：模型的預測器能夠在潛在空間中進行預測，捕捉圖像的語義信息，而不是像素級細節。
特徵提取：該模型可用於圖像分類或特徵提取，特定的檢查點適用於特徵提取任務。

📚 詳細文檔

工作原理

與具有像素解碼器的生成方法不同，I-JEPA 有一個預測器，可在潛在空間中進行預測。I-JEPA 中的預測器可以看作是一個原始（且受限）的世界模型，能夠從部分可觀察的上下文中對靜態圖像中的空間不確定性進行建模。這個世界模型具有語義性，因為它預測的是圖像中未觀察區域的高級信息，而不是像素級細節。

我們訓練了一個隨機解碼器，將 I-JEPA 預測的表示映射回像素空間，形成草圖。該模型能夠正確捕捉位置不確定性，並生成具有正確姿態的高級對象部分（例如，狗的頭部、狼的前腿）。

Illustrating how the predictor learns to model the semantics of the world

預期用途和侷限性

I-JEPA 可用於圖像分類或特徵提取。此特定檢查點旨在用於特徵提取。

BibTeX 引用和引用信息

如果您在工作中使用了 I-JEPA 或此代碼，請引用：

@article{assran2023self,
  title={Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture},
  author={Assran, Mahmoud and Duval, Quentin and Misra, Ishan and Bojanowski, Piotr and Vincent, Pascal and Rabbat, Michael and LeCun, Yann and Ballas, Nicolas},
  journal={arXiv preprint arXiv:2301.08243},
  year={2023}
}